Zeitreihenanalyse natÃ¼rlicher Systeme mit neuronalen Netzen und ...

Zeitreihenanalyse natürlicher Systeme 

mit neuronalen Netzen und 

Methoden der statistischen Physik sowie 

der nichtlinearen Dynamik 

Dem Fachbereich Physik der 

Carl von Ossietzky Universität Oldenburg 

zur Erlangung des Grades eines 

Doktors der Naturwissenschaften (Dr. rer. nat.) 

angenommene Dissertation 

Andreas Weichert 

geb. am 8. März 1963 

in Bremen

Erstreferent: 

Prof. Dr. Pal Ruján 

1. Korreferent: Prof. Dr. Bruno Eckhardt 

2. Korreferent: Prof. Dr. Jürgen Parisi 

Tag der Disputation: 27. Februar 1998

Inhaltsverzeichnis 

1 Einleitung.................................................................................................... 1 

2 Das Software-Tool „Data-Stream-Network“ ............................................ 3 

2.1 Idee des „Data-Stream-Networks“ ............................................................................. 3 

2.2 Bedienung und Oberfläche ........................................................................................ 5 

2.3 Implementierung...................................................................................................... 10 

2.3.1 C++.................................................................................................................... 10 

2.3.2 Tcl/Tk ................................................................................................................ 10 

2.3.3 Interne Module des Programms .......................................................................... 11 

2.3.4 Interne Programmstruktur................................................................................... 15 

2.4 Integrierte Algorithmen und technische Eigenschaften........................................... 17 

2.5 Erweiterungen .......................................................................................................... 20 

3 Radiales Basisfunktionensystem.............................................................. 21 

3.1 Einleitung................................................................................................................. 21 

3.2 Hauptschrittte........................................................................................................... 23 

3.3 Clusterung................................................................................................................ 24 

3.4 Funktionsapproximation.......................................................................................... 26 

3.5 Parameter und Optimierung .................................................................................... 26 

4 Analyse von Luftstaubgemischen ............................................................ 29 

4.1 Einleitung................................................................................................................. 29 

4.2 Aufgabenbeschreibung............................................................................................. 30 

4.3 Mathematische Basis................................................................................................ 31 

4.4 Voruntersuchungen.................................................................................................. 35 

4.4.1 Stoffsortierung.................................................................................................... 35 

4.4.2 Transformation der Konzentrationsmatrix........................................................... 38 

4.4.3 Hauptkomponentenzerlegung des LGS ............................................................... 40 

4.4.4 Sensibilitätsbetrachtung ...................................................................................... 43 

4.5 Hauptuntersuchung ................................................................................................. 44 

4.6 Erweiterte Untersuchung.......................................................................................... 52 

4.6.1 Bildung von Stoffgruppen................................................................................... 52 

4.6.2 Bestimmung der Elementgruppen........................................................................ 56 

4.6.3 Reduktion der Elementanzahl.............................................................................. 58 

4.7 Ergebnisse und Diskussion....................................................................................... 62 

5 Detektion der Milankovitchzyklen im Kirchroder Bohrkern................. 63 

5.1 Einleitung................................................................................................................. 63 

5.2 Sichtung des Datenbestandes ................................................................................... 64 

5.3 Untersuchung der Korrelationen und Hauptkomponentenanalyse.......................... 66 

5.4 Angewandte Methoden zur Frequenzanalyse........................................................... 68 

1

5.5 Durchführung der Frequenzanalysen...................................................................... 68 

5.5.1 Untersuchung von Datensatz 1............................................................................ 69 




5.7 Liapunov-Exponent der TOC-Zeitreihe ................................................................... 74 

6 Untersuchung des Ökosystems Peruanisches Auftriebsgebiet ............... 77 

6.1 Einleitung................................................................................................................. 77 

6.2 Frequenzanalyse der Anchoveta-Zeitreihe ............................................................... 78 

6.3 Vorhersage des Anchoveta-Bestandes ...................................................................... 79 

6.3.1 Lineare Regressions-Vorhersage......................................................................... 79 

6.3.2 Differenzfilter ..................................................................................................... 82 

6.3.3 Radialfunktionen-System-Interpolation ............................................................... 83 

6.4 Korrelationen............................................................................................................ 85 


7 Downscaling und Vorhersage von Wetterdaten in Potsdam .................. 87 

7.1 Einleitung................................................................................................................. 87 

7.2 Untersuchung des Niederschlages............................................................................ 88 

7.2.1 Untersuchung des Jahresganges .......................................................................... 88 

7.2.2 Downscaling der Niederschlagsamplituden.......................................................... 89 

7.2.3 Übergang zu Trefferquoten................................................................................. 94 

7.2.4 Downscaling der binären Niederschlagsereignisse................................................ 95 

7.2.5 Schwellwertvariation .......................................................................................... 97 

7.2.6 Informationsgehalt der pT-Daten ........................................................................ 98 

7.2.7 Zeitliche Vorhersage......................................................................................... 101 

7.3 Untersuchung der Maximaltemperatur.................................................................. 103 

7.3.1 Untersuchung des Jahresganges ........................................................................ 103 

7.3.2 Downscaling..................................................................................................... 104 

7.3.3 Informationsgehalt der pT-Daten ...................................................................... 106 

7.4 Untersuchung Wasserdampfdruckes...................................................................... 107 

7.4.1 Untersuchung des Jahresganges ........................................................................ 107 

7.4.2 Downscaling..................................................................................................... 108 

7.4.3 Zeitliche Vorhersage......................................................................................... 109 

7.5 Ergebnisse und Diskussion..................................................................................... 112 

8 Zusammenfassung.................................................................................. 113 

9 Anhang.................................................................................................... 116 

9.1 Arbeiten mit „Data-Stream-Network“.................................................................... 116 

9.2 Tabellen.................................................................................................................. 121 

10 Abkürzungen .......................................................................................... 125 

11 Literaturverzeichnis............................................................................... 126 

2

1 Einleitung 

Die Theorie der dynamischen Systeme versucht den Zustand und die Entwicklung eines Systems auf die 

Wechselwirkungen seiner Einzelkomponenten zurückzuführen. Mit Hilfe der statistischen Physik 

können Systeme mit sehr vielen Freiheitsgraden untersucht und durch makroskopische Größen 

statistisch beschrieben werden. Die Anwendung dieser Theorien auf die Analyse und die Vorhersage von 

Zeitreihen ist ein Ansatz mit dem in letzter Zeit auf vielen Gebieten mit großem Einsatz erfolgreich 

gearbeitet wird. Physiker untersuchen dabei nicht nur typische physikalische Systeme, sondern wagen 

sich auch in andere komplexe Zusammenhänge z.B. der Biologie, Sozialwissenschaft, Wirtschaft und 

dem Finanzwesen vor. Die erfolgreiche Vorhersage realer Systeme kann von sehr großem praktischem 

Nutzen sein. Die Bedeutung der richtigen Prognose z.B. des Wettergeschehens, sozialer und 

wirtschaftlicher Entwicklungen, biologischer Ressourcen etc. ist offensichtlich. Das Wissen um 

zukünftige Entwicklungen würde es ermöglichen, frühzeitig in derartige Systeme steuernd einzugreifen 

um sie zu regulieren. 

Das „Schauen in die Zukunft“ und das Ausnutzen dieser Kenntnis ist uralter Menschheitstraum. Der 

Begrifft „Zeit“ ist fest in unserer Denkstruktur verankert, denn die Vorhersage ist eine natürliche 

Fähigkeit der Menschen, die aber oft unbewußt benutzt wird. Schon wenn wir eine Straße überqueren, 

müssen wir vorhersagen, wo sich ein Auto einige Sekunden später befinden wird. Diese Vorhersage 

wurden dabei im Laufe des Lebens mit statistischen Methoden gelernt. Dabei wurde nicht nur die 

& 

& 

Dynamik des Fahrzeuges (im physikalischen Bild: x = v ⋅ t ) approximiert, sondern auch die komplexen 

Reize des Auges in ein wie auch immer geartetes reduziertes (aber zweckmäßiges) inneres Bild der Welt 

transformiert. Dieses geschieht „nur“ durch die Auswertung der Sinnesreize und deren räumliche und 

zeitliche Korrelationen, also Observablen, die nicht den (einfachen) Systemgrößen im physikalischen 

Bild entsprechen. Die Anwendung statistischer Methoden, speziell die der künstlichen neuronalen 

Netzwerke, ist daher eine erfolgreiche Methode, um die Dynamik unbekannter Systeme nur durch die 

Auswertung von Observablen zu untersuchen. 

Neben der Entwicklung der Methoden zur Zeitreihenanalyse und der Untersuchung von Datenbeständen 

lag ein wichtiger Teil dieser Arbeit darin, ein allgemein verwendbares, leistungsfähiges und einfach zu 

bedienendes Software-Tool für die Zeitreihen- und Datenanalyse zu schaffen. Alle selbst entwickelten, 

implementierten und aus Bibliotheken eingebundenen Algorithmen wurden dabei in eine Oberfläche 

integriert, unter der sie verwaltet und verknüpft werden können. Das Programm ermöglicht es, einem 

Anwender mit Erfahrungen auf dem Gebiet der Zeitreihenanalyse ohne Programmier-kenntnisse, 

Algorithmenstrukturen grafisch aufzubauen und Analysen fast auf Knopfdruck durchzuführen. Diese 

Software-Engeneering-Seite dieser Arbeit wird in Kapitel 2 beschrieben. Sie ist die Grundlage für die 

durchgeführten Analysen. 

1

Im Bereich der nichtlinearen Dynamik sind in den letzen Jahren eine Reihe von Verfahren zur Analyse 

von Zeitreihen entwickelt und auf verschiedene Systeme angewendet worden. Mit diesen Algorithmen 

können verschiedene Kenngrößen der Systeme bestimmt oder die Struktur und Art der Attraktoren 

untersucht werden. Für einige Systeme lassen sich Modelle finden, die die Dynamik eines Systems 

approximieren. Letztendlich kann daraus eine zeitliche Vorhersage für die Evolution der Systeme 

gewonnen werden. 

Viele Verfahren liefern aber nur bei der Anwendung auf stark deterministische Systeme brauchbare 

Ergebnisse. Die bekannten Standardtestsysteme (Henon, Mackey-Glass [2]) können z.B. durch 

neuronale Netzwerke sehr präzise approximiert werden, wogegen die Untersuchung von Observablen 

natürlicher Systeme schwierig und unsicher ist. Die deterministischen Anteile einer Zeitreihe sind meist 

von Rauschen überlagert oder durch andere irreguläre Einflüsse gestört. Statistische Verfahren 

benötigen daher große Datenmengen, die bei natürlichen Systemen meistens nur durch aufwendige 

Messungen gewonnen werden können und daher selten zur Verfügung stehen. Weiterhin ist von 

vornherein nicht sicher, ob die zu untersuchenden Daten überhaupt systematisch korreliert sind oder ob 

die Datenbasis ausreicht, um mögliche Korrelationen zu erkennen. 

In dieser Arbeit soll geprüft werden, ob einige ausgewählte Algorithmen auf natürliche Systeme 

anwendbar sind. Die vier untersuchten Datensätze stammen dabei aus sehr unterschiedlichen Systemen 

mit sehr komplexen hochdimensionalen Wechselwirkungen. Die Observablen, die für eine Untersuchung 

zur Verfügung stehen, stellen nur einen sehr kleinen Teil (oder eine Projektion) der am ganzen System 

beteiligten Größen dar. Das Takens-Theorem [1] liefert eine Methode, mit der die Untersuchung des 

Gesamtsystems im Prinzip möglich ist: Nur durch die Auswertung der Observablen mehrerer 

Zeitschritte kann ohne Kenntnis aller dynamischen Größen und deren Wechselwirkungen das System 

approximiert werden. Dieser rein statistische Ansatz ist sehr pragmatisch und bei natürlichen Systemen 

oft der einzig mögliche, da die Wechselwirkungen im System im allgemeinen so komplex sind, daß sie 

nicht direkt modelliert werden können. 

Nach dieser Einleitung folgen die Kapitel mit den einzelnen Themengebieten. Das Kapitel 2 beschreibt 

das entwickelte Software-Tool. Im darauf folgenden Kapitel 3 wird auf die Theorie des neuronale 

Netzwerktyps „Radiales-Basis-Funktionen-System“ eingegangen, das in drei der vier Untersuchungen 

angewendet wurde. Danach folgen die Abschnitte über die Analyse der verschiedenen Datensätze: 

Konzentrationen von Stäuben in der Luft (Kap. 4), chemische Bestandteile der Schichten eines 

Bohrkernes (Kap. 5), Tierbestände eines Ökosystems (Kap. 6) sowie Druck- und Temperaturwerte der 

Atmosphäre (Kap. 7). Auf die sehr unterschiedlichen Themenbereiche, wird in den jeweiligen Kapiteln 

vorbereitet. 

2

2 Das Software-Tool „Data-Stream-Network“ 

2.1 Idee des „Data-Stream-Networks“ 

Im Jahr 1994 entwickelte sich die Idee zu diesem Programm aus Ergonomieüberlegungen. Es war, in 

Betracht der durchzuführenden Datenanalysen, notwendig die Arbeitsmethoden effizienter zu gestalten. 

Die übliche Vorgehensweise ohne dieses Tool war folgende: 

Für eine gegebene Aufgabe werden (i.a. viele) Algorithmen entwickelt und in einem Programm 

miteinander verbunden. Das Programm ist damit nur für diese Art von Untersuchungen verwendbar. Für 

kleine Variationen der Methoden muß fortwährend der Sourcecode umgeschrieben werden. Sollen 

gänzlich andere Probleme gelöst werden, muß ein komplett neues Programm entwickelt bzw. aus 

Algorithmen von vorhandenem Programmcode aufgebaut werden. D.h., für jede neue Aufgabe oder 

sogar Variation der Aufgabe ist ein eigenständiges Programm notwendig. Der Grund für die 

Spezialisierung der Programme liegt dabei meistens nicht in den verwendeten Algorithmen, die sich in 

vielen Fällen kompatibel erstellen lassen, sondern in deren Auswahl, Varianten, Reihenfolge und 

Verknüpfung. 

Ein Ausweg aus diesem Problem ist es die Entwicklung eines einzigen universellen Programmes.. Um es 

für alle eventuellen Anwendungen zu rüsten, müßte es allerdings sehr komplex sein. Die mannigfaltigen 

Möglichkeiten der Zeitreihenanalyse wären auf herkömmlichem Wege nur durch eine komplizierte 

Struktur von Parametern einstellbar. Praktisch ließe sich dieser Weg daher nur für eine sehr 

eingeschränkte Klasse von Anwendungen realisieren. 

Eine andere Möglichkeit wäre es, die Untersuchungsschritte auf viele einzelne konfigurierbare 

Programme zu verteilen, die je nach Anwendung über das Betriebssystem miteinander verknüpft 

werden. Der Datenaustausch zwischen den Modulen muß dabei über kompatible (Datei-) Schnittstellen 

oder Pipes erfolgen. Letztendlich wird jedoch durch diese Modullierung das Problem nur vom 

Programmcode auf die Betriebssystemebene verschoben: Die Verkettung der Module, der 

Datenaustausch und das Setzen der Parameter müßte entweder für jede Berechnung interaktiv erfolgen 

oder durch Scriptprogrammierung wieder individuell programmiert werden. Z. B. müßte das Aufteilen 

von Daten auf mehrere Verarbeitungszweige, das Zusammenführen bzw. der Vergleich der Ergebnisse 

und die Ausführung der Programme richtig synchronisiert werden. Weiterhin müßte die Optimierung der 

Verfahren und Parametereinstellungen durch viele Programmdurchläufe (und Umprogrammierungen) 

erfolgen. Der zusätzliche Arbeitsaufwand für die Verwaltung und Steuerung der Module würde von der 

eigentlichen Aufgabe ablenken. Große Untersuchungen ließen sich bei dieser Vorgehensweise nicht 

professionell abwickeln. 

3

Daher erschien es notwendig ein komfortables und flexibles Arbeitswerkzeug für die Zeitreihen- und 

Datenanalyse mit folgenden Anforderungskriterien zu entwerfen: Das Programm sollte nach dem 

bewährten Modulprinzip arbeiten - die Arbeitsabläufe werden in kleine und gut abgestimmte 

wiederverwendbare Einheiten zerlegt. Dabei ist es wichtig gut abzuwägen, wie universell oder speziell 

die einzelnen Module zu entwickeln sind. Falls sie zu speziell sind, sind sie nicht wiederverwendbar, 

sind sie zu primitiv müssen zu viele Module für eine Anwendung vernetzt werden 1 . Dieses Programm 

sollte alle diese Module komfortabel verwalten und es ermöglichen sie schnell und einfach anzusteuern, 

zu verbinden sowie die Berechnungen automatisch ablaufen zu lassen. Die Parameter und die Art der 

verwendenden Algorithmen müßte einfach zu verändern und deren Wirkung direkt zu erhalten sein, so 

daß Optimierungen schnell durchzuführen sind. Weiterhin sollten alle Standardalgorithmen der 

Zeitreihenanalyse eingebaut sein und auch die grafische Darstellung der Ergebnisse im Programm 

integriert sein. Das Programm soll kurz gesagt in einer abstrakten Form den Umgang mit Daten 

ermöglichen und den Benutzer mit internen Details verschonen, so daß er sich ganz auf seine Aufgabe 

konzentrieren kann. 

Die geforderten Eigenschaften lassen sich wie folgt zusammenfassen: 

1. Wiederverwendbare Module 

2. Kompatible Schnittstellen zwischen den Modulen 

3. Einfache und übersichtliche Vernetzung der Module 

4. Leichte Einstellung und Optimierung der Parameter 

5. Einfache und einheitliche Bedienung aller Module 

6. Angebot aller Standardverfahren der Zeitreihenanalyse 

7. Integration einer grafischen Darstellung der Ergebnisse 

Einen entscheidenden Hinweis für die Gestaltung einer Bedienungsoberfläche, mit der diese Kriterien 

erfüllt werden können, gab das Softwarepaket KHOROS 2 , das ursprünglich von der University of New 

Mexico (USA) entwickelt wurde. Mit dem Programm kann interaktiv grafisch ein Netz der 

Bearbeitungsroutinen, mit denen die Daten verarbeitet werden sollen, konstruiert und die Ergebnisse 

grafisch ausgegeben werden. Leider war der Umfang und die Komplexität des Programmes - die 

komplette Version enthält 500 MB Sourcecode - so groß, daß es überdimensioniert für die Zielsetzung 

1 Diese Gradwanderung zwischen Komplexität und Simplizität der Algorithmen war nicht immer einfach. So wurde 

manchmal von Benutzern bemängelt, daß für eine einfache Aufgabe zu viele Module verwendet werden mußten. Durch die 

kleinen Module war es allerdings möglich, dieses oder jenes Modul auch in einem ganz anderen Zusammenhang zu 

verwenden. 

2 

Es wird inzwischen kommerziell von der Khoral Research Inc. für $549 (Einzelplatzversion) vertrieben 

(http://www.khoral.com). 

4

erschien. Außerdem war das Programm hinsichtlich seiner Bedienung, und Flexibilität und der 

Darstellung sehr großer Algrithmennetze nicht optimal 3 . 

Daher wurde ein eigenes Programm nach diesem Vorbild aber ohne die Schwächen konstruiert: Mit dem 

entwickelten Programm können, ähnlich wie bei KHOROS, viele Algorithmen schnell und einfach 

miteinander „verschaltet“ werden. Ebenso leicht ist es, nachträglich Änderungen an der 

Vernetzungsstruktur oder den Parametern durchzuführen und das Ergebnis dieser Manipulationen zu 

erhalten. Die Konstruktion der Algorithmenvernetzungen geschieht interaktiv mit Hilfe eines grafischen 

Editors und läßt sich unter dem Stichwort "Grafische Programmierung“ einordnen. Die gesamte 

Algorithmusstruktur wird aus kleinen, überschaubaren Einheiten aufgebaut. Diese so erzeugte 

Netzwerkstruktur ist als ein Filtersystem zu verstehen, in das auf der Eingabeseite ein oder mehrere 

Datensätze einfließen, mit verschiedenen Algorithmen bearbeitet werden und an der Ausgabeseite i.a. 

auch grafisch aufbereitet ausgegeben werden. Aus diesem Bild ist der Name „Data-Stream-Network“ 

entstanden. 

2.2 Bedienung und Oberfläche 

Das Data-Stream-Network-Programm (DSN) 4 läßt sich sehr leicht auf einem MS-Windows-Rechner 

installieren. Das komprimierte Programmpaket paßt auf eine HD-Diskette (1.44 kB) und wird mit dem 

enthaltenen Installationsprogramm auf die Festplatte kopiert und entpackt. Außerdem müssen zwei 

Public Domain Programme auf dem Computer installiert sein: GNUPLOT 5 zur grafischen 

Datenrepräsentation und die Scriptsprache Tcl/Tk 6 der Firma SUN, mit der die grafische 

Bedienungsoberfläche programmiert wurde. 

Das DSN präsentiert sich beim Start als eine leere Arbeitsfläche, auf der das Netz der Algorithmen 

konstruiert wird (Abbildung 1). Die Fläche zum Aufbau der Struktur ist nicht durch die 

Bildschirmgröße beschränkt. Durch Scrollbars können andere Bereiche des großen virtuellen Desktop 

sichtbar gemacht werden. An den Seiten ist der Desktop mit verschiedenen aktiven Widgets zur 

Steuerung des Programms und passiven Widgets als Statusanzeige umgeben. 

Die obere Menüzeile stellt allgemeine Kommandos zur Programmsteuerung zur Verfügung. Shortcuts 

für häufig benutzte Befehle sind am linken Fensterrand in Form von Smart Icons angebracht. Die 

wichtigsten Befehle sind selbstverständlich auch über Tastenkürzel zu erreichen. 

3 Z.B. werden in KHOROS die Algorithmen immer von der linken Seite mit Daten gespeist und geben rechts die 

Ergebnisse aus. Falls der Datenfluß von recht nach links läuft, was bei komplexen Algorithmennetzen häufig vorkommt, 

entstehen unübersichtliche Z-förmige Verbindungsmuster und ein Durcheinander von Verbindungslinien. 

4 Die aktuelle Version läßt sich unter http://www.neuro.uni-oldenburg.de/~weichert laden (Stand 3.5.1998). 

5 Copyright (C) 1986-1993 Thomas Williams, Colin Kelley; http://www.cs.dartmouth.edu/gnuplot_info.html 

6 http://sunscript.sun.com/ 

5

In der zweiten Menüzeile können die eingebauten Algorithmen, nach Bedeutungsgruppen sortiert, 

angewählt werden. Durch einen anschließenden Mausklick auf eine leere Stelle des Desktops wird ein 

Algorithmus, durch ein großes Icon dargestellt, „fallengelassen“. Die Algorithmen werden dabei als 

Filter aufgefaßt, d.h. sie müssen auf der einen Seite mit Daten gespeist werden und geben auf der 

anderen Seite ihre berechneten Daten aus. Für diese Ein- und Ausgabedaten werden kleinere Icons 

automatisch eingefügt und durch Pfeile, die die Datenflußrichtung anzeigen, mit dem Algorithmus Icon 

verbunden 7 . Hat man zwei Algorithmen (incl. der Datenknoten) auf der Arbeitsfläche plaziert, können 

sie sehr einfach miteinander vernetzt werden: Z. B. "faßt" man mit der Maus das Ausgabe Icon "an", 

schiebt es über einen Eingabedatenknoten und läßt es "fallen“ (tag, move, and drop mit der linken 

Maustaste). Die beiden Datenknoten werden dadurch automatisch verschmolzen und stellen jetzt ein und 

denselben Datensatz dar. Mit dieser Methode wurden große Netze mit 200 Verknüpfungen konstruiert. 

Die Netzwerkstruktur läßt sich, mit allen darin enthaltenen Daten, in ihrem aktuellen Zustand 

vollständig in eine Datei sichern und wieder laden. 

Alle Netzteile können jederzeit verschoben oder in ihrer Struktur verändert werden, indem man eine 

Verbindung oder einen Knoten markiert, dann löscht und einen anderen Algorithmus oder eine andere 

Vernetzung einfügt. Einzelne Knoten lassen sich mit der Maus gleichzeitig markieren und Gruppen 

können mit einem „Fangrechteck“ erfaßt werden, so daß alle Befehle auch auf mehrere Knoten 

gleichzeitig angewendet werden können. 

Nachdem die gewünschte Datenflußstruktur aufgebaut ist, reicht ein doppelter Mausklick auf einen 

hinteren Knoten und alle Berechnungen, die nötig sind, um diesen Knoten zu bestimmen, werden 

gestartet. Jederzeit können Struktur- oder Parameteränderungen durchgeführt werden, deren 

Auswirkungen man durch einen erneuten Mausklick erhalten kann. Nach einem rekursiven 

Suchverfahren werden nur die Teile neu berechnet, die nicht mehr der aktuellen Netzwerkstruktur oder 

den aktuellen Parametereinstellungen entsprechen. Der Zustand der Datenknoten wird durch die 

unterschiedliche Schattenfarbe angezeigt. Z. B. erkennt man in Abbildung 1, daß das Netz bis zum 

PCA-Trafo-Knoten (12) bzw. bis zu dessen Rechenergebnis (13) durchgerechnet worden ist, da diese 

Knoten und alle Knoten bzgl. der Datenflußrichtung davor einen grauen Schatten (auf dem 

Farbbildschirm: grün) besitzen. Die Knoten dahinter sind noch nicht aktualisiert und schwarz (auf dem 

Farbbildschirm: blau), falls sie Daten enthalten bzw. hellgrau, falls sie leer sind. Die Aktualisierung der 

Knoten wird durch das schrittweise Durchfärben der Schatten während der Berechnung visualisiert. 

7 Im Gegensatz zu KHOROS, bei dem die Daten in die Algorithmen eingebettet sind, werden im DSN auch die Daten als 

separate Knoten dargestellt und können ohne Algorithmus existieren. Dieses Konzept ist logischer und ermöglicht 

außerdem eine übersichtliche grafische Darstellung der Netzwerkstruktur. 

6

Abbildung 1: Bildschirmhardcopy des Data-Stream-Networks mit einem kleinen Beispielnetz: 

Ein ähnliches Netz ist für die Downscaling-Untersuchung in dieser Arbeit verwendet worden. Hier eine allgemeine 

Interpretation: Stellen wir uns vor, uns liegen Messungen eines Observablenvektors A vor, der den Zustand eines 

dynamischen Systems S zu bestimmten Zeitpunkten beschreibt. Diese Daten stehen uns in Form einer Zeitreihe als Datei 

auf der Festplatte zur Verfügung. Sie werden durch den Zeitreihenlade-Knoten (1) in das Netz gebracht und liegen dort 

durch Knoten (2) symbolisiert zur Weiterverarbeitung bereit. Weiterhin haben wird Daten einer andere Observable B des 

Systems, die über einen unbekannten inneren Zusammenhang mit dem Zustand des Systems verknüpft ist (24). Wir stellen 

uns jetzt die Aufgabe, aus den zwischen den beiden Datensätzen bestehenden Korrelationen die Abbildung vom ersten 

Observablenvektor auf die zweite Observable zu schätzen. Da wir eine allgemeingültige Abbildung suchen und nicht nur 

die vorliegenden Datensätze approximieren wollen (Stichwort: Overfitting), teilen wir unsere Daten in Trainings- und 

Testdatensatz auf. Mit Knoten (3) für A und Knoten (23) für B wird diese Aufgabe erledigt. B sei eine multivariante 

Zeitreihe mit 100 Observablen pro Zeitpunkt, die stark untereinander korreliert sind. Um das Rauschen herauszufiltern und 

um die Algorithmen nicht mit unnötigen Datenmengen zu belasten, werden die Daten vorverarbeitet. Dazu bestimmen wir 

die Kreuzkorrelationsmatrix (10) mit (9) und wenden eine Hauptkomponentenanalyse (PCA) in (6) an. Das Ergebnis liegt 

in (7) vor und wird mit (16) in eine Grafik gedruckt und interpretiert. Daran erkennt man, daß nur die ersten 5 

Komponenten relevante Information enthalten und stellen dieses in den Parametern der PCA-Transformation (8) ein. 

Derselbe Parameter wird in (12) für den Testdatensatz (5) verwendet. Die Menge der reduzierten jetzt 5-dimensionalen 

Datenpunkte (11) wird in (14) einer Phasenraumclusterung unterzogen und liefert in (15) die Vorstufe eines neuronalen 

Netzes (RBFS). Das Netz wird in (17) mit den Trainingsdaten (26) gefittet und liefert in (18) das RBFS als Ergebnis. 

Dieses wird mit (28) auf den Testdatensatz (13) angewendet. Die berechnete Zeitreihe (29) sollte jetzt ähnlich der 

gemessenen Zeitreihe (27) sein. Um dieses zu prüfen, werden sie voneinander abgezogen (20). Die Differenzzeitreihe (22) 

wird dann auf ihre Kenngrößen, wie z.B. die Streuung, untersucht. 

7

Der Inhalt der Datenknoten (Daten) und der Algorithmusknoten (Parameter) kann durch einen Befehl 

(Shortcut: rechte Maustaste) sichtbar gemacht und verändert werden. Es öffnet sich eine Dialogbox, in 

der der Knoteninhalt in einem ASCII-Format dargestellt ist. Alle Datenknoten besitzen zusätzlich eine 

grafische Darstellung. Durch einen speziellen Befehl wird der Inhalt des gerade markierten Knotens 

aufbereitet und an das externe Programm GNUPLOT geleitet. Jeder Datentyp (z.B. Zeitreihe, 

Frequenzspektrum) besitzt eine standardisierte Darstellungsform, die in diesem Fall benutzt wird. Sollen 

speziellere Grafiken erzeugt werden, ist für jeden Datentyp ein Plotalgorithmus entwickelt worden, 

durch dessen Parameter die Darstellung genau angepaßt werden kann. Die Einstellungen beziehen sich 

dabei auf Stile wie Farben, Linienarten, Beschriftungen, Achsenabschnitte etc. und generelle 

datenabhängige Formate, z.B. wie die Kanäle einer multivarianten Zeitreihe auf die verschiedenen 

Koordinatenachsen verteilt werden sollen (Phasenraumplot). Die Plotalgorithmen erzeugen für einige 

Datentypen auch 3-dimensionale Grafiken. Dabei ist die Darstellung der Clusterung eines 3- 

dimensionalen Attraktors (Abbildung 2) sehr eindrucksvoll. 

P1 

P2 

60 

50 

P3 

P4 

40 

30 

20 

10 

0 

-20 

-10 

0 

10 

20 -30 

-20 

-10 

0 

10 

20 

30 

Abbildung 2: Clusterung des Lorenz-Attraktors (5000 Beispielpunkte). Die Graustufe gibt die Tiefe im 

binären Teilungsbaum an: In Gebieten (P4, P3) mit höherer Punktdichte wird häufiger geteilt. 

8

Die Bedienung des Programmes ist durch das natürliche und einfache Prinzip schnell zu erlernen. Die 

Dokumentation des Programmes ist zum größten Teil in die Oberfläche integriert: Die Bedeutung der 

einzelnen Knöpfe und Felder wird in einer Textzeile am unteren Fensterrand eingeblendet, wenn das 

entsprechende Objekt selektiert ist oder wenn die Maus "darauf zeigt". Die Hilfe für die einzelnen 

Algorithmen und Datentypen läßt sich direkt von der Dialogbox zum Editieren der Knoten einblenden: 

Es erscheint ein Text 8 , der die Bedeutung und die Einstellungsmöglichkeiten des Knotentyps erklärt. 

Mit dem DSN können Analysen schnell und komfortabel durchgeführt werden. Verschiedene 

Netzvarianten lassen sich einfach konstruieren, Parametereinstellungen können schnell variiert werden. 

Das Resultat dieser Veränderungen ist immer nur ein Mausklick (und Rechenzeit) entfernt. 

Für einige Anwendungen war jedoch die Bedienung per Hand nicht ausreichend. Immer wiederkehrende 

systematische Arbeitsschritte, die z.B. bei der Feinjustierung von Parametern oder der Untersuchung 

von vielen gleichartigen Datensätzen anfallen, sollten automatisiert werden. Die erste Idee bestand darin, 

den Netzwerkeditor um Schleifen, logische Verzweigungsstrukturen und automatische 

Parametereinstellungen zu erweitern. Bei näherer Überlegung stellte sich jedoch heraus, daß dieser Weg 

einen unverhältnismäßig großen Programmieraufwand erfordert, wenn diese Möglichkeit in einer 

allgemeinen Form in die Netzwerkstrukturen eingebaut werden soll. Die Flexibilität, die nötig ist, um 

den Programmablauf der mannigfaltigen Anwendungsmöglichkeiten zu steuern, ist dabei nur schwer zu 

erreichen. Deshalb wurde ein anderer Weg eingeschlagen: Das Data-Stream-Network wurde um eine 

Scriptsprache ergänzt. Diese Erweiterung basiert auf der Scriptsprache Tool Command Language (Tcl), 

auf die im Kapitel 2.3.2 eingegangen wird. Tcl eignet sich aufgrund seiner guten Stringverarbeitung 

hervorragend für diese Aufgabe. Tcl läßt sich um eigene Befehle erweitern, die es ermöglichen, das 

DSN zu manipulieren. Mit diesen neuen Befehlen können z.B. Parameter verändert, Knoten aktualisiert 

und kopiert sowie Daten ausgelesen, verglichen und gespeichert und damit Ergebnisse automatisch 

gesammelt werden. Da Tcl alle Konstrukte höherer Programmiersprachen zu Verfügung stellt, sind auch 

komplexe Steuerungen des Netzwerkes möglich. Das DSN kann verschiede Tcl-Scripte, hier Makros 

genannt, verwalten. Jedes Makro wird durch einen Button am Fensterrand dargestellt und ermöglicht 

somit, beliebige komplexe Abläufe schnell anzusteuern. 

Im Anhang wird die Bedienung des Data-Stream-Networks an praktischen Anwendungsbeispielen 

demonstriert. Man erhält darin auch einen Überblick über die wichtigsten Algorithmen im Programm. 

8 An einer HTML-Hilfedatei wird zur Zeit gearbeitet. Es wäre denkbar, in dieser Hypertextform und einer Kombinaion mit 

dem DSN eine interaktive Anleitung zur Zeitreihenanylse (einfaches Expertensystem) aufzubauen. 

9

2.3 Implementierung 

2.3.1 C++ 

Das Gerüst des Data-Stream-Networks wurde komplett in C++ programmiert. Alle selbst entwickelten 

Algorithmen und alle aus fremden C-Bibliotheken entnommenen Algorithmen wurden in eigenständige 

C++-Klassen eingebunden. Der objektorientierte Ansatz dieser Programmiersprache erfordert eine 

gewisse Zeit des Umdenkens, die sich aber auszahlt. C++ besitzt eine hohe Abstraktionsebene und 

ermöglicht bessere Kapselung von Daten und Prozeduren. Auch wird die Vererbung zur Verfügung 

gestellt, wodurch in hierarchischer Struktur und somit übersichtlich programmiert werden kann. C++ 

kann so erweitert werden 9 , daß eine an ein spezielles Problem angepaßte Programmiersprache entsteht. 

In dem Programmpaket DSN wurde intensiv von dieser Möglichkeit Gebrauch gemacht 10 . 

Der Hauptgrund für die Wahl von C++ ist aber deren allgemeine Verfügbarkeit und Standardisierung, 

wodurch die Entwicklung einer Software, die auf verschiedenen Betriebssystemen läuft, ermöglicht 

wird. Ein weiterer Vorteil ist die Verfügbarkeit von umfangreichen Bibliotheken von Algorithmen und 

Tools in C bzw. C++. 

2.3.2 Tcl/Tk 

Die Tool Command Language (Tcl) ist eine sehr leistungsfähige Interpretersprache, die von Prof. John 

Ousterhout 11 an der University of California at Berkeley ab 1988 entwickelt wurde. Der Kern dieser 

Sprache ist die String- und Listenverarbeitung. Alle Variablentypen sind letztendlich Strings, die 

entsprechend interpretiert werden (z.B. als float oder int) 12 . Auch Programmcode kann in Variablen 

abgelegt und interpretiert werden, so daß ein laufendes Programm um neuen Code erweitert werden 

kann. Diese Möglichkeit wird bei der Programmierung der Makros im DSN ausgenutzt. (Weitere 

Informationen zu Tcl in [3] und [4]) 

Die wichtigste Erweiterung von Tcl ist das Tool Kit (Tk), das den entscheidenden Ausschlag für die 

Verwendung dieser Sprache gab. Durch das Tk wird der Tcl-Interpreter um umfangreiche Befehle zur 

grafischen Oberflächenprogrammierung erweitert. Mit sehr einfach aufgebautem Programmcode lassen 

sich Fenster mit vielen verschiedenen Arten von Widgets 13 erzeugen und damit interaktive Dialogboxen 

aufbauen. Durch die Kombination von Tcl und Tk ist es möglich, vollständige interaktive Anwendungen 

zu erstellen ohne andere Programmiersprachen zu verwenden. 

9 abgesehen von grammatikalischen Erweiterungen 

10 Es wurden als erstes z.B. Tools zur Verwaltung von dynamischen Vektoren und Matrizen entwickelt. Darauf aufbauend 

entstanden abstraktere Objekte wie Zeitreihen und Fourierspektren. 

11 http://www.sunlabs.com/~ouster/ 

12 Die neuste Version von Tcl (8.0) verwaltet zur Beschleunigung des Interpreters intern die numerischen Variablen binär. 

10

Tcl/Tk ist jedoch nicht für alle Anwendungen geeignet. Numerisch intensive Algorithmen laufen in 

compilierbaren Sprachen schneller. Tcl/Tk bietet daher die Möglichkeit, sich mit verschiedenen anderen 

Sprachen (C, Pascal, FORTRAN) zu verbinden. Es ist möglich, von C aus alle Tcl/Tk-Befehle 

aufzurufen und umgekehrt von Tcl/Tk aus auf Prozeduren und Variablen des C-Programmes 

zuzugreifen. Dieses ermöglicht letztendlich die Steuerung eines C-Programmes durch Benutzeraktionen 

(Maus, Tastatur), die von Tk registriert werden. 

Tcl ist schnell zu erlernen und verkürzt durch seine Struktur auch die Entwicklungszeit 14 . Es stellt 

Möglichkeiten zur Verfügung, die in C++ nur durch aufwendige Programmierung erreicht werden 

können. Dazu gehören z.B. die interaktiv skalierbaren Dialogboxen und die Steuerung der Oberfläche 

durch eine sehr flexible Bindung an verschiedenartigste Benutzeraktionen. Beeindruckend sind auch die 

Möglichkeiten, die sich durch das canvas-widget eröffnen: Grafische Elemente können als Objekte auf 

dem canvas plaziert, verschoben und skaliert werden. Die Verwaltung und Restaurierung des 

Bildschirmhintergrundes und die Überlappung der Objekte (z-Koordinate) wird selbständig von Tk 

verwaltet. 

Tcl/Tk entlastet durch seine abstrakte Form von systemspezifischer Programmierung und ist dadurch 

auch kompatibel. Da es Tcl/Tk-Pakete für alle wichtigen Betriebssysteme (X-Windows-UNIX, MS- 

Windows, OS/2, Macintosh) gibt, trägt es dazu bei, das "babylonische Sprachengewirr" unter den 

Systemen zu umgehen. 

Ein weiteres herausragendes Merkmal dieses Programmiersystems ist die eingebaute Option, die 

Sprache fundamental durch Binärcode zu erweitern. So existieren z.B. fertige Module, um grundsätzlich 

neue Widgets zu erzeugen (TIX 15 ) und Flächen- bzw. Liniengrafiken zu erzeugen (BLT 16 ). Es ist 

geplant, diese beiden leistungsfähigen Erweiterungen in die nächste Version des DSN zu integrieren. 

2.3.3 Interne Module des Programms 

Auf die C++-Programmierung an sich kann hier nicht eingegangen werden. Es wird auf die Literatur [3] 

und [6] verwiesen. 

In C++ kann nicht immer zwischen Daten- und Prozedurstrukturen unterschieden werden: Klassen 

können gleichzeitig Daten und Prozeduren enthalten. Trotzdem hat man eine anschauliche Vorstellung 

von der Funktion einer Klasse und teilt sie nach ihrem Gebrauch in Daten und Prozeduren ein. So würde 

13 z.B Menüs, Buttons, Labels, Entries, Text, Scrollbars, Scales 

14 In der ersten Version des DSN wurde die Oberfläche direkt in C++ mit Hilfe einer Borland-Klassenbibliothek (ähnlich 

Java) entwickelt. Die Einarbeitung in Tcl/Tk und die Umstellung des Programmes erforderte mit ca. 6-7 Wochen 

wesentlich weniger Zeit als die Programmierung der Oberfläche in C++. 

15 Dieses stellt alle bekannten Steuerelemente von MS-Windows und mehr zur Verfügung: z.B. multi-document-interface, 

directory tree, helpballon etc. 

11

man z.B. Punkte, Farben, Zeitreihen, Fourierspektren etc. zu den Daten und die Algorithmen, die mit 

diesen Daten arbeiten, zu den Prozeduren rechnen. 

Die Algorithmen im DSN sind aber erweitert programmiert worden: Sie enthalten auch Daten - nämlich 

ihre Parameter. Die Einbettung der Parameter in die Algorithmen hat den Vorteil, daß beim Aufruf der 

Berechnungsprozedur nicht alle Parameter (es sind teilweise bis zu 30) mit angegeben werden müssen. 

Sie werden durch den Constructor der Algorithmus auf Standardwerte gesetzt, die jedoch einzeln 

verändert werden können 17 . Außerdem liegt alles, was die Berechnung definiert, ohne globalen Kontext 

kompakt in einer Klasse vor und ermöglicht so eine einheitliche Behandlung von Daten und 

Algorithmen, was für die interne Verwaltung des DS-Netzes notwendig ist (siehe später). 

Diese Art der Programmierung ist eng mit einer anderen Problemlösung verknüpft. Zu Beginn der 

Arbeit am DSN trat immer wieder das gleiche Problem auf: Daten mußten in eine Datei gespeichert und 

geladen, Parameter eingestellt und die Ergebnisse angeschaut und beurteilt werden. Immer wieder mußte 

ähnlicher Code für die vielen verschiedenen Datentypen neu programmiert werden, um den im Prinzip 

immer gleichen Vorgang zu ermöglichen: Die Transformation von binär nach ASCII und umgekehrt. 

Die Lösung besteht darin, eine Containerklasse zu programmieren, die generell den Umgang mit Daten 

wesentlich vereinfacht: Auf dieser zu diesem Zweck entwickelten Klasse VarList, als Abkürzung für 

„Variablenliste“, beruhen alle im DSN verwendeten Datenstrukturen. Als Children von VarList erben 

sie deren Fähigkeiten, die sind: 

1. Standardisiertes Speichern von Daten 

2. Laden von Daten in einem Standardformat 

3. Menschenlesbare Darstellung der Daten (ASCII) 

4. Editieren der Daten 

5. Fehlertolerante Interpretation 

6. Verwalten von mehreren Datenlisten in einer Datei 

Mit der geerbten Elementfunktion "AddVar" registriert man eine Variable in einer Instanz von 

VarList. z.B.: 

int fifo, WindowSize; Vector filter; 

AddVar("Filterform",fifo,0); 

// 0-Rechteckfilter, 1-Spez. Filter 

AddVar("WindowSize",winsize,10); // Filtergroesse 

AddVar("Filter",filter); 

// Ist Vektor 

filter.SetStr("1 2 3.5 2 1"); 

// Möglichkeit einen Vektor mit 

// einen String Standardwerte zu setzen 

16 Dieses Modul stellt z.B. Koordinatenachsen, Gitter, Kuchendiagramme etc. zur Verfügung. 

17 C++ unterstützt zwar auch Defaultwerte in Prozeduren, dieses aber nur in einer bestimmten Reihenfolge: Nur die 

hinteren Parameter einer Prozedur können weggelassen werden, was für die Parameterstruktur der implementierten 

Algorithmen nicht ausreicht. 

12

Der erste Parameter der AddVar-Funktion gibt den Namen der Variablen in der ASCII-Darstellung, der 

zweite die C-Variable, von der die Adresse und der Typ in VarList gespeichert wird an. Diese letze 

Angaben ermöglichen, daß die VarList-Klasse intern auf die Variable zugreifen kann. Im dritten 

Parameter werden die Defaultwerte angegeben. VarList unterstützt alle Standardvariablentypen 

(char, int, float, double) und die definierten Typen (Boolean, String, Vector, 

Matrix, Color, Intervall etc.). 

Durch die Anwendung dieser einen Prozedur sind alle obigen 6 Punkte für die jeweilige Variable in 

einem Schritt erledigt. Wenn eine Instanz der VarList-Klasse z.B. mit Namen „MovingAverage“ 

definiert wird, sieht die durch VarList zu Verfügung gestellte ASCII-Darstellung der Daten 

folgendermaßen aus: 

[MovingAverage] 

FilterForm = 0 

WindowSize = 10 

Filter = 1 2 3 2 1 

[END] of [MovingAverage] 

In dieser Darstellung wird auch der Datentyp gespeichert, geladen und editiert 18 . Gerade das Speichern 

in und das Lesen aus einer Datei wird durch diese aufwendige aber übersichtliche Darstellungsform 

fehlertolerant gehalten. In der üblichen Programmierung müßten für jeden Datentyp Speicherprozeduren 

und dazu kompatible Ladeprozeduren programmiert werden (doppelte Arbeit). Dabei müßte exakt in 

derselben Art und Reihenfolge geschrieben wie gelesen werden. Falls die Datenstruktur im Laufe der 

Datenanalyse und der Programmweiterentwicklung geändert würde, könnten alte Dateien nicht mehr 

gelesen werden und erzeugten Programmabstürze. VarList ist fehlertolerant und funktioniert immer - 

neue Variablen werden auf Defaultwerte gesetzt, falsche Variablennamen werden ignoriert. Desweiteren 

können verschiedene Variablenlisten in einer Datei verwaltet und über ihren Namen unterschieden 

werden. 

Die folgenden Zeilen zeigen den vollständigen Code für die Definition einer Childclass. Sie 

verdeutlichen, wie kurz und einfach eine Datenverwaltung mit der VarList-Klasse programmiert 

werden kann: 

18 Es ist geplant, VarList um eine automatische Erzeugung von Tk-Code für eine Dialogbox zu erweitern. In dieser könnten 

dann durch spezifische Widgets (Check- und Radiobutton, Scaler, Entrys, Text) die einzelnen Datentypen komfortabel 

editiert werden. 

13

class MovingAverage: public VarList 

{ int fifo; 

int 

winsize; 

vector filter; 

MovingAverage() 

// Constructor 

{ AddVar("Filterform",fifo,0); 

AddVar("WindowSize",winsize,10); 

AddVar("Filter",filter); filter.SetStr("1 2 3.2 1"); 

} 

} 

Durch die Abstammung von VarList hat MovingAverage folgende Routinen geerbt: 

Load(String FileName) 

Save(String FileName) 

GetStr() 

SetStr(String s) 

Edit() 

FindeSection(ifstrem*,SectonName) 

~VarList() 

Laden aller Variablen 

Speichern aller Variablen 

ASCII-Darstellung der Variablen 

Interpretiert Strings 

Verändern mit einem Editor 

Findet VarList-Name in einer Datei 

(Beginn einer Datensektion: [Name]) 

Destructor 

Auch komplexere Datentypen, wie z.B. Zeitreihen, beruhen auf der VarList-Klasse. Um die zusätzlich 

in der Klasse enthaltenen Daten abzuspeichern, müssen die Elementfunktionen Load und Save 

überschieben werden: 

class Timeser: public VarList 

{public: 

MyStr 

History; 

MyStr 

DateTime; 

int 

ChannelSize; // Anzahl der Datenkanäle 

TimePoints Time; // Klasse, die die Zeitpunkte verwaltet 

MyStr ValueUnit; // Einheit der Zeit (sec,day,year etc.) 

Matrix Channel; // Datenwerte der multivar. Zeitreihe 

... 

Timeser(); // Constructor 

void Empty(); // Deallokiert den verwendeten dynamischen Speicher 

~Timeser();......// Destructor 

... 

int Load(String FileName); // Lädt die Zeitreihe 

int Load(String FileName); // Speichert die Zeitreihe 

... 

} ; 

14

Ein Algorithmus unterscheidet sich von einem "einfachen" Datentyp durch die Erweiterung um die 

Elementfunktion Run(..,..,..) mit der die Berechnung durchgeführt wird. Ein Hauptprogramm, 

z.B. um den MovingAverage (MA) einer Zeitreihe zu bestimmen, sieht damit folgendermaßen aus: 

#include "timeser.h" 

#include "ts_algor_1.h" 

int main() 

{ Timeser InputTS, OutputTS; // 2 Zeitreihen anlegen 

MovingAverage MA; 

// MA-Algo. incl. Parameter anlegen 

MA.Window=2; MA.FilterMethode=0; // Parameter zum MA setzen 

MA.Save("MovAv.par"); 

// Parameter speichern 

InputTS.Load("test.ts"); 

// Zeitreihe laden 

int Error=MA.Run(OutputTS,InputTS);// MA berechnen 

if(Error) return(Error); 

OutputTS.Save("test_ma.ts"); // Ergebnis speichern 

return(0); 

} 

Alle Algorithmen haben von außen betrachtet dieselbe Struktur und stellen dieselben 

Basisfunktionalitäten zur Verfügung. Dadurch ist es möglich, sie in ein allgemeines Verwaltungs- und 

Vernetzungssystem einzubinden, wie es im DSN erfolgt ist. Mehr dazu im nächsten Abschnitt. 

2.3.4 Interne Programmstruktur 

Das komplette Softwarepaket enthält ca. 25.000 Quellcodezeilen mit über 1.000.000 Zeichen (zum 

Vergleich: diese Dissertation enthält ca. 200.000 Zeichen). Um dieses umfangreiche Projekt 

übersichtlich zu halten, wurde großen Wert auf die strukturierte Programmierung gelegt. Die 

Möglichkeiten von C++ unterstützen dabei diese Bemühungen. 

Der Quelltext wurde auf 34 C++-Module (jedes enthält wieder viele Klassen) und 14 Tcl/Tk-Files 

aufgeteilt. Bei der Strukturierung wurde versucht die Abhängigkeiten der Module möglichst hierarchisch 

oder sogar linear zu halten. Es gibt wenige parallele Programmteile und keine zyklischen 

Abhängigkeiten. Mit C++ ließen sich zwar komplexe Abhängigkeitsstrukturen verarbeiten 19 , dieses hätte 

aber den Nachteil, daß sehr viele Module neu übersetzt werden müßten, wenn nur ein Modul verändert 

wird. Durch den Aufbau der Module wird dieses vermieden, sowie das logische Verständnis des 

Programmablaufes und die Fehlersuche vereinfacht. 

Zu der Hierarchisierung gehört auch die Trennung von Algorithmen (unter Schicht) und Oberfläche 

(obere Schicht). Alle Algorithmen können getrennt von der DSN-Struktur verwendet werden. Dies ist 

möglich, obwohl die Algorithmen beim Einbau in das DSN auf Oberflächenelemente zugreifen und sie 

manipulieren (z.B. wird der Fortschritt jedes Algorithmus in Prozent ausgegeben). Um dieses zu 

19 Der einfachste (und schlechteste) Weg besteht darin, alle Headerfiles zu einem zusammenzufassen. 

15

erreichen, wird mit Funktionenpointern gearbeitet, die in den unteren Hierarchieschichten auf NULL 

zeigen und in den höheren Schichten auf die entsprechende Tcl/Tk-Routine gesetzt werden. 

Ein ähnlicher Hierarchieaufbau und deren Bruch ist bei dem Programmteil zur Verwaltung des 

Netzwerkes angewendet worden. Allerdings liegt hier eine Hierarchie von Klassen in folgender 

Reihenfolge vor: Die Basisklasse DSNStructure beinhaltet die Netzwerkstruktur sowie deren File-I/O. 

DSNAlgor stellt die Schnittstelle zu den Algorithmen und Daten zur Verfügung, kann Knoteninhalte 

konstruieren, löschen, speichern und laden und Berechnungen durchführen (Run durchs Netzwerk). 

DSNManipulation erweitert den statischen Teil des Netzwerkes durch konstruktive Methoden: 

Einfügen und Löschen von Knoten und Verbindungen. Durch DSNGraph wird die Sichtbarkeit des 

Netzwerkes und dessen Animation zu Verfügung gestellt. Es enthält die Aktion des Netzwerkes an die 

Oberfläche durch die Tcl/Tk-Schnittstelle. Durch das Zwischenmodul DSNCommand werden Reaktionen 

auf die Benutzeraktionen bearbeitet. DSNWindows letztendlich, die oberste Klasse, ist die Schnittstelle 

zwischen den Oberflächenvents (von Tk geliefert) und dem Netzwerk. Diese Klassenhierarchie zur 

Netzwerkverwaltung macht ca. 20% des gesamten Codes des DSN aus. 

DSNStructure kann auch ohne die oberen Schichten allein bestehen. Es wäre z.B. möglich, ein Netz 

zu konstruieren und dieses ohne Oberfläche im Batchbetrieb innerhalb von DSNStructure laufen zu 

lassen. Es könnte daher als nicht sichtbares Subnetz (komplexer Algorithmus) dienen, das als eine 

Funktionseinheit in ein anderes Netz eingebettet wird. In diesem Fall werden die Funktionen, die auf die 

Oberfläche zugreifen nicht aktiviert. Dieses wird dadurch erreicht, daß diese Funktionen in 

DSNStructure als virtuelle 20 Funktionen leer deklariert sind. Das Überschreiben dieser Funktionen 

durch die Klassen in den höheren Schichten findet in diesem Fall nicht statt. 

Die Netzwerkstruktur in DSNStructure baut sich aus vielen Nodes und Conections auf, die 

jeweils als eigene Klasse definiert sind und in Listen gespeichert werden. Die Einzelelemente enthalten 

Zeiger auf die mit ihnen im Netz verbundenen Elemente. Im Prinzip kann mit dieser Struktur jeder 

Graph aufgebaut werden. Die Klasse DSNManipulation überprüft aber jede Benutzeraktion und 

garantiert, daß bzgl. des Datenflusses keine unsinnigen Netze konstruiert werden. Nur Inputknoten mit 

Outputknoten und kompatible Datentypen können verknüpft werden. Andernfalls gibt es eine 

Fehlermeldung und die Aktion wird ignoriert. 

Jeder Knoten enthält eine int-Variable, die die ID des Knotentyps angibt und einen void-Pointer, der 

entsprechend der ID interpretiert wird (type-casting). Da alle Knoten dieselben Basisfunktionen 

enthalten (durch VarList definiert), kann durch ein identisches C-Makro auf alle Knoten über ein 

CASE-Label nach ID selektiert zugegriffen werden. 

20 Die Funktionsweise von explizit virtuell definierten Funktionen läßt sich nachträglich ändern. 

16

2.4 Integrierte Algorithmen und technische Eigenschaften 

Algorithmen und Verfahren 

Bemerkung: Die meisten Algorithmen arbeiten auch mit multivarianten Zeitreihen. 

• Generierung von mathematischen Standardzeitreihen und Funktionen 

• Normal- und gleichverteiltes Rauschen 

• Logistische Abbildung, Hénon-Abbildung, Lorenz-System, Standard Abbildung 

• Autoregressiver Moving-Average-Prozeß 

• Treppen-, Sinus-, Cosinus-, Polynomfunktion 

• Mathematisches Pendel 

• Erzeugung und Verarbeitung von binären Zeitreihen und Zeitpunkten 

• Selektion von Zeitpunkten nach verschiedenen Kriterien: 

Schnittpunkte zweier Zeitreihen (aufwärts und abwärts Kreuzungen getrennt bestimmbar), 

Schwellwerte, Extrema 

• Invertieren von binären Zeitreihen 

• Boolean‘sche Operatoren von zwei binären Zeitreihen 

• Vergleich zweier binärer Zeitreihen 

Es wird die Statistik Übereinstimmungen bestimmt. 

• Ausschneiden von Abschnitten einer Zeitreihe zu definierten (woanders berechnenten) 

Zeitpunkten 

• Optimalen Schwellwert finden: 

Eine kontinuierliche Zeitreihe soll durch einen Schwellwert binärisiert werden. Dieser 

Algorithmus bestimmt den optimalen Schwellwert, so daß das Ergebnis am besten mit einer 

zweiten gegebenen binären Zeitreihe übereinstimmt. 

• Elementare Analyse von Zeitreihen 

• Mittelwert und Varianz 

• Quadratsumme (Leistung) 

• Minimum und Maximum 

• Bestimmung der linearen Regressionsparameter 

• Umstrukturierung von Zeitreihen 

• Zeitverschiebung und Zeitumskalierung 

• Zerteilen von Zeitreihen bzgl. der Zeitkoordinate 

• Ausschneiden von Abschnitten einer Zeitreihe bzgl. der Zeitkoordinate 

• Zerteilen einer Zeitreihe in gleichlange Intervalle 

Die Intervallänge muß nicht teilbar durch die Samplingrate sein. 

Dadurch wurde das Problem der Schaltjahre umgangen (Jahr hat 64,75 Tage). 

• Zwei Zeitreihen verbinden 

• Eine Zeitreihe N mal aneinanderhängen 

• Sortieren der Daten bzgl. Größe oder Absolutbetrag 

• Ausschneiden von einzelnen Kanälen einer multivarianten Zeitreihe 

17

• Kombinieren von mehreren singelvarianten Zeitreihen zu einer multivarianten Zeitreihe 

Die eventuell unterschiedlichen Zeitintervalle werden automatisch angepaßt. 

• Timedelay-Transformation (Takens) 

• Elementare Manipulationen von Zeitreihen 

• Umskalierung mit Festlegung von Mittelwert, Streuung, mittlere Quadratsumme, Minimum 

und/oder Maximum 

• Rundung, Logarithmierung, Exponentierung, Potenzierung 

• Addition, Subtraktion, Multiplikation und Division mit Skalaren 

• Addition, Subtraktion, Multiplikation und Division von Zeitreihen untereinander 

(auch multivariant) 

• Mittelwert über die Kanäle einer multivarianten Zeitreihe 

• „Inverses Timedelay“ 

Eine multivariante Zeitreihe wird durch diagonale Mittelwertbildung in eine monovariante 

Zeitreihe transformiert. 

• Erweiterte Manipulationen und Analysen von Zeitreihen 

• Mittelwert und Streuung kumuliert 

• Moving-Averages mit einfachem, linearem, exponentiellem Filter 

Beliebige Filterkoeffizienten sind auch explizit definierbar. 

• Gleitende Streuung: 

Für jeden Zeitpunkt wird die Steuung einer bestimmten Anzahl benachbarter Datenpunkte 

berechnet. 

• Interpolation zwischen den Daten benachbarter Zeitpunkte, Ausdünnen einer Zeitreihe 

• Differenzfilter 

Gleitend werden die Werte einer Zeitreihe mit definiertem Zeitabstand subtrahiert. Statt der 

direkten Werte können auch einfache gleitende Mittelwerte voneinander subtrahiert werden. 

• Bestimmung der linearen oder polynominalen Interpolationskoeffizienten 

Für jeden Zeitpunkt werden für ein Zeitfenster die Koeffizienten bestimmt. Sie werden als 

multivariante Zeitreihe ausgegeben und von einem anderen Algorithmus zur Extrapolation in die 

Zukunft (Vorhersage) benutzt. 

• Korrelationen 

• Autokorrelation (maximaler Zeitshift festlegbar) 

Die Berechnung erfolgt über die FFT oder direkt. 

• Korrelation zweier Zeitreihen (maximaler und minimaler Zeitshift festlegbar) 

Die Berechnung erfolgt über die FFT oder direkt. 

• Korrelation zweier Zeitreihen über ein gleitendes Zeitfenster 

Die Veränderung der Korrelation mit der Zeit kann damit untersucht werden. 

• Korrelation vieler Zeitreihen untereinander und Bestimmung der Kreuzkorrelationsmatrix 

Durch die Anwendung des Timedelay-Algorithmus kann auch die zeitliche Korrelation untersucht 

werden. 

• Hauptkomponentenanalyse der Kreuzkorrelationsmatrix 

• Hautpkomponententransformation einer multivarianten Zeitreihe 

• Umsortierung der Spalten und Zeilen der Kreuzkorrelationsmatrix 

Die Sortierung erfolgt automatisch so, daß Gruppen die stark miteinander korreliert sind (positiv 

wie negativ), gut zu erkennen sind. 

• Umsortierung der Kanäle einer multivarianten Zeitreihe 

18

• Statistik 

• kumulative Verteilungen 

• Histogramme 

• Frequenzanalyse 

• Direkte und inverse Fast-Fouriertransformation für 2 N Stützstellen 

• Direkte und inverse Fouriertransformation für beliebige Stützstellenanzahl 

• Bandfilter 

• Maximum Entropie Spektrum 

• Detektieren von Peaks in einem Frequenzspektrum 

• Hauptfrequenzanalyse nach Laskar [7] 

• Schreiber-Rauschfilter [8] 

• Direkte und inverse diskrete Wavelettransformation (Daubechies-Basis) 

• Filter im Waveletspektrum 

• Vorhersage 

• Autoregressive Vorhersage 

• Einfache Nächste-Nachbar-Vorhersage 

• Phasenraum-Clusterung 

• Radial-Basis-Funktionen-System (RBFS) 

• Schätzung von Lyapunov-Exponenten und Jacobimatrix (mit RBFS) 

• Grafische Ausgabe aller Datentypen 

• Matrizen 

Die Größe der Matrixelemente wird durch Quadrate dargestellt. 

• Hauptkomponentenzerlegung 

• Zeitreihen (auch 3d) 

Es sind mannigfaltige Darstellungsformen möglich. 

• Fourierspektren 

• Waveletspektren 

• Cluster (auch 3d) 

• Radial-Basis-Funktionen 

• Histogramme 

• Soundausgabe von Zeitreihen als wave-Datei 

19

Technische Eigenschaften 

• 25.000 Zeilen / 1.000.000 Bytes selbst entwickelter C++-Code 

• Ca. 100 Algorithmen 

• Bis zu 500 Knoten können in einem Netz verwaltet werden 

• Virtueller Bildschirm von 5000 x 5000 Pixeln 

• Netzwerkstruktur, Daten und Desktop können komplett gesichert werden 

• Programm spart Arbeitsspeicher, da nur die benötigten Daten ins RAM geladen werden 

• Alle Datenstrukturen besitzen eine grafische Ausgabe über GNUPLOT 

• Hilfetext für jeden Algorithmus 

• Bedienungshilfe in Oberfläche integriert 

2.5 Erweiterungen 

Geplant ist eine Erweiterung der Dateistrukturen um ein binäres Format, um das Laden und Speichern 

der Netzknoten zu beschleunigen. Dieses soll in einer generellen Art durch die Erweiterung von 

VarList geschehen. 

Ein sinnvolle aber auch arbeitsaufwendige Vervollständigung des DSN ist der Einbau einer eigenen 

grafischen Datendarstellung. Diese soll in BLT 21 erfolgen und würde erweiterte grafische 

Darstellungsformen ermöglichen und dem Betrachter erlauben, interaktiv die Bilder zu manipulieren 

(z.B. Zoomen) oder weitere Informationen anzufordern. 

Das Programm kann auch als Basis und übersichtliche Bedienungsplattform für weitere Algorithmen 

dienen. 

21 Dieses Erweiterungmodul von Tcl/Tk stellt z.B. Koordiantenachsen, Gitter, Kuchendiagramme zur Verfügung. 

20

3 Radiales Basisfunktionensystem 

3.1 Einleitung 

Künstliche neuronale Netzwerke werden heute in vielen Bereichen eingesetzt. Mit ihnen können diskrete 

Klassifizierungsaufgaben gelöst oder kontinuierliche Funktionen approximiert werden. Neuronale 

Netzwerke (NN) bieten eine allgemeine Methode, um komplexe und hochdimensionale Zusammenhänge 

zu erkennen und zu modellieren. Sie werden daher auch für die Vorhersage dynamischer Systeme und 

für adaptive Steuerungsaufgaben eingesetzt. Viele dieser Aufgaben sind auch direkt mit konventionellen 

Methoden lösbar, der intellektuelle und zeitliche Aufwand ist aber oft sehr hoch 22 . Neuronale Netzwerke 

bieten die Möglichkeit, ein Problem schnell und einfach zu bearbeiten, ohne komplexes Vorwissen 

einzubeziehen. 

Zum ersten liegt dieses an der universalen Struktur der NN, durch die sie bei entsprechender 

Netzwerkgröße fast beliebige stetige nichtlineare Abbildungen approximieren können. Zweitens ist mit 

einem Netzwerk ein Lernverfahren verbunden, das die Netzwerkstruktur und die Gewichte 

„automatisch“ an die gestellte Aufgabe anpaßt. Beim supervised-learnig liegen für eine Aufgabe 

Lösungen in Form von Frage/Antwort-Paaren (Beispiele) vor. Das Netzwerk adaptiert sich, so daß der 

Fehler zwischen Netzwerkeingabe und Ausgabe minimiert wird. 

In den vorliegenden Anwendungen sind die zu lernenden Daten kontinuierliche Vektorvariablen, d.h. das 

Netzwerk f soll Vektoren 

d 

x∈ R auf Vektoren y∈R 

e abbilden. Es wird angenommen, daß der 

Zusammenhang zwischen x und y sich aus einem deterministischen Teil g (x) 

und einem stochastischen 

Teil ξ zusammensetzt. 

(1) y ( x) 

= g( 

x) 

+ ξ . 

Das Netzwerk wird mit Beispielpaaren B={(x (i) ,y (i) )| i=1..N} trainiert und soll die Abbildung g schätzen. 

Die Qualität des Fits wird durch den mittleren quadratischen Fehler über den Beispielsatz definiert 

( ) 

() i () 

(2) E( f) 

= ∑ y −f( x i 

) 

1 

2 

Ν 

ι= 

1 

Neuronale Netze können sich durch ihre allgemeine Struktur sehr gut an vorgegebene Datensätze 

anpassen und den Fehler (2) i.a. fast unter jede Schwelle drücken. Das Ziel der Untersuchung besteht 

aber nicht darin, einen speziellen Datensatz vollständig zu approximieren, sondern „nur“ die darin 

enthaltenen Gesetzmäßigkeiten g zu extrahieren. Bei praktischen Anwendungen steht allerding nur eine 

2 

. 

22 und zu teuer 

21

egrenzte Beispielanzahl zur Verfügung, so daß eine zu starke Adaption an einen speziellen Beispielsatz 

zu einer Abnahme der Generalisierung (durch overfitting) des Netzes führt: D.h. andere Datensätze 

werden, obwohl sie vom selben System stammen, schlechter approximiert. Die Beispielanzahl muß 

daher wesentlich größer als die Kapazität des Netzes (Parameteranzahl) sein. Enthalten die Daten große 

stochastische Unregelmäßigkeiten, so ist ein noch „gröberes“ Netzwerk die Voraussetzung für die 

Fehlerreduktion durch Mittelung über benachbarte Datenpunkte. 

Andererseits bieten neuronale Netzwerke die Möglichkeit, mit großer Netzwerksturktur sehr fein 

aufzulösen und stark variierende Funktionen zu generieren. Ausgeprägt nichtlineare Zusammenhänge, 

die in den Daten enthalten sind, können dadurch erkannt und modelliert werden. Es stellt sich aber die 

Frage, ob der gesetzmäßige Zusammenhang zwischen x und y tatsächlich so komplex ist und ob die zur 

Verfügung stehenden Beispiele von ihrer Anzahl und ihren stochastischen Fehlern ausreichen, um diesen 

Zusammenhang so komplex zu modellieren. Um dieses abzuschätzen und die Grenze zwischen 

overfitting und underfitting zu finden, wird konsequent die cross-validation angewendet: Die Datensätze 

werden in Trainings- und Testdaten aufgeteilt - der Fehler im Testdatensatz ist das Fehlermaß. 

Verschiedene Netzwerktypen sind entwickelt worden, die sich in zwei Grundtypen einteilen lassen: 

Lokale Karten und globale Funktionen. Die lokalen Karten [9] [10] bestehen aus einer Kollektion 

einzelner Funktionen, die jeweils für verschiedene Phasenraumvolumina „zuständig“ sind. Die 

Phasenraumaufteilung wird an die Eingabedaten angepaßt. Die globalen Funktionen hingegen bestehen 

aus einer Funktion, die auf den ganzen Phasenraum angewendet wird. Zu diesen gehört das häufig 

verwendete Multi-Layer-Perceptron-Netzwerk 23 (MLP), das hier kurz aufgegriffen wird, um den Vorteil 

des hier verwendeten Verfahrens deutlich zu machen. 

Bei MLPs [11] wird die Einteilung des Phasenraumes durch lineare Separationen durchgeführt. Die 

Ausgabe der 1. Schicht wird in der zweiten und in den folgenden Schichten zu komplexen 

charakteristischen Funktionen (in Form von Hyperpolyedern) kombiniert, die Phasenraumbereiche (hier 

auch Cluster genannt) abgrenzen. In der letzen Schicht wird jedem Cluster ein Funktionswert 

zugeordnet. Die Berechnung der Gewichte erfolgt durch Gradientenabstieg in Form einer Fehler- 

Backpropagation mit dem Ziel der Minimierung von (2). Dadurch wird die Clusterung durch die 

Verteilung der Eingabedaten und die Funktionswerte bestimmt. 

Das in dieser Arbeit eingesetzte Radiale-Basis-Funktionen-System (RBFS) hat durch das von Moody 

and Darken [12] und Stokbro et al [13] vorgeschlagene 2-Stufenverfahren gegenüber dem MLP 

folgende Vorteile: Die Clusterung des Phasenraumes und der Fit des Funktionswertes wird getrennt 

durchgeführt. Die gesamte Trainingszeit des Netzes ist dadurch wesentlich geringer, als die eines 

23 der Standard bei den neuronalen Netzen 

22

entsprechenden MLPs nach dem Backpropagationverfahren, was die Verarbeitung größerer Netzwerke 

ermöglicht. Zusätzlich haben die RBFSs Multiskaleneigenschaften und erfüllen ein 

Entropieminimierungsprinzip. 

3.2 Hauptschrittte 

Der Algorithmus läßt sich in 3 Schritte einteilen: 

( i) 

1. Die Eingabebeispiele X { | i = 1.. N} 

= x werden in disjunkte Teilmengen Cj ; j =1 .. M mit 

C ∩C , j ≠ k eingeteilt. Die Einteilung geschieht so, daß bzgl. eines Abstandsmaßes konvexe und 

j 

k 

möglichst kompakte Cluster entstehen. Das Verfahren, um dieses zu erreichen, beruht auf einem 

Entropieprinzip. 

2. Für jedes Cluster j wird eine charakteristische Funktion definiert. Statt der üblichen „harten“ 

Funktion χ j ( x) ∈{ 01, , } die 1 für Punkte innerhalb des Clusters und sonst 0 liefert, wird eine durch 

eine exponentielle Glättung "aufgeweichte" Funktion, die Radialfunktion R verwendet: 

j 

−1 

j 

(3) Rj( x) 

~ exp( −( x−x 

) ⋅η 

⋅K 

j ⋅( x−x 

) 

Die Zentrierung auf den Clusterschwerpunkt x j erzeugt einen gaußschen Abfall der charakteristischen 

Funktion zu den Clustergrenzen. Die Stärke des Abfalles wird richtungsabhängig durch die 

Kovarianzmatrix K (7) definiert, wodurch sich die Linien gleichen Funktionswertes von R der großen 

Clusterform anpassen. Durch den Skalierungsfaktor η wird die Stärke des Abfalles und damit die 

Überlappung der charakteristischen Funktionen benachbarter Cluster eingestellt. 

Die Radialfunktionen können normiert werden und sind dadurch den üblichen charakteristischen 

Funktionen mit Funktionswert 1 für alle Punkte im Cluster ähnlicher: 

(4) P( x) 

= 

j 

M 

∑ j= 

1 

Rj 

R 

j 

( x) 

3. Für jedes Cluster j wird eine lineare Funktion L j (x) 

definiert, die den Funktionswert innerhalb 

des Cluster j approximieren soll: 

(5) L ( x a + B ⋅ x 

j ) = j j 

Die Reichweite dieser Funktion wird beschränkt, indem sie mit der Radialfunktion des Clusters 

multipliziert wird. Die Summe dieser Produkte über alle Cluster wird als Radial-Basis-Funktionen- 

System (RBFS) bezeichnet: 

23

(6) f ( x) 

∑L 

j 

( x) 

⋅ P j 

( x) 

= M j = 1 

Die Paramter (a j ,B j ) werden so bestimmt, daß (2) minimiert wird. Falls B=0, kann die Funktion f als 

einfaches feedforward Netzwerk mit einer verdeckten Schicht angesehen werden. Die vollständige Form 

von (6) stellt ein kompliziertes Netzwerk mit 2 versteckten Schichten dar. 

3.3 Clusterung 

Viele Clusterungsalgorithmen sind entwickelt worden, die sich für den ersten Schritt eignen. Sie lassen 

sich in 1-Schrittverfahren und in sukzessive Verfahren einteilen. Bei ersteren werden nach einem 

Optimierungkriterium viele gleichberechtigte Cluster erzeugt. Moddy and Darken [12] definierten einen 

k-mean Clusterungsalgorithmus, bei dem die Summe der Varianzen einer festgelegten Anzahl von 

Clustern minimiert wird. Zu den iterativen Verfahren gehört das von Stokbro et al. [13], bei dem ein k- 

d-Baum erzeugt wird. Dieses geschieht durch Teilen eines großes Clusters in d kleinere Subcluster. 

Diese Subcluster werden wieder unterteilt, bis die Baumtiefe k erreicht ist. Bei dem Verfahren in [13] 

werden die Teilungen durch Ebenen senkrecht zu den Koordinatenachsen durchgeführt, so daß 

rechteckige Cluster entstehen. 

Hier wird eine allgemeine Form des k-d-Baumes eingesetzt, die sehr schnell zu berechnen ist. Für jedes 

Cluster j wird die Kovarianzmatrix der Punkte des Clusters C k bestimmt. Begonnen wird mit dem 1. 

Cluster, welches die komplette Datenmenge umfaßt: 

(7) = ( x − x ) ⋅( x − x ) 

K 

i , j 

i 

i 

j 

Diese Matrix enthält Information über die Ausdehnung und Orientierung der Punktwolke im Raum. Sie 

ist symmetrisch und läßt sich diagonalisieren 24 . Die Eigenwerte der Matrix liefern die Ausdehnungen 

(Varianzen) der Punktwolke in den Eigenrichtungen. Diese Eigenrichtungen haben (bzgl. aller 

orthogonalen Koordinatensysteme) die Eigenschaft, die Koordinatenentropie (8) zu minimieren [14]. 

D.h. bezüglich dieser Richtungen sind die Varianzen am „ungleichmäßigsten“ verteilt. Die Darstellung 

der Datenpunkte x in diesem Koordinatenystem liefert folgende Entropie: 

(8) S j 

= −∑ 

pi 

log pi 

d 

i = 1 

j 

x∈C k 

2 

(9) = ( xˆ 

− xˆ 

) 

σ und 

i 

i 

i 

2 

x∈C k 

p i 

= d 

σ 

∑ 

i= 

1 

2 

i 

σ 

2 

i 

24 Die Diagonalisierung wird robust mit singular value decomposition [20] durchgeführt. 

24

Diese Überlegung liefert ein Kriterium für die Teilung eines Clusters: Es wird eine Ebene mit 

Normalenvektor in Richtung des größten Eigenvektors definieren und parallel verschoben, so daß sie 

durch den Clusterschwerpunkt verläuft 25 . An dieser Ebene wird die Punktmenge in zwei Cluster 

getrennt. Durch diese spezielle Wahl der Teilungsrichtung wird möglichst viel Entropie in den zwei 

neuen Clustern erzeugt, bzw. vom Standpunkt der Kodierung aus betrachtet, wird die größtmögliche 

Information extrahiert. Geometrisch interpretiert bedeutet dieses, daß senkrecht zur Richtung mit der 

meisten Struktur getrennt und so die Information über die Verteilung der Datenpunkte optimal auf 2 

Cluster verteilt wird. Eine Ungenauigkeit in dieser Koordinatenrichtung würde einen großen 

Gesamtfehler in der Lokalisation der Datenpunkte bedeuten. 

Das Verfahren wird für jedes Subcluster bis zu einem Abbruchkriterium iteriert. In jedem 

Teilungsschritt wird für jedes neu entstandene Cluster eine weitere Hyperebene nach obiger Methode 

generiert, die es teilt. Dabei entstehen immer kleinere Cluster, die sich durch konvexe Hyperpolyeder 

einfassen lassen. Durch die Entropiemaximierung in den Clustern werden sie möglichst kreisförmig 

gehalten, d.h. sie haben in alle Richtungen ähnliche Varianzen, die sich i.a. nur um einen Faktor 2 

unterscheiden. 

Die ganze Teilungsabfolge erzeugt einen binären Baum, der eine Repräsentation der Datenverteilung 

(Attraktor) darstellt. Von dieser Darstellung, die bis zu dieser Stelle noch die vollständige Information 

über die Datenverteilung enthält, wird im 3. Schritt des Algorithmus nur die Information Schwerpunkt 

und Ausdehnung der Cluster benutzt. Man erhält damit eine kompakte und reduzierte Darstellung eines 

eventuell sehr komplexen Attraktors. Diese Darstellung ist hierarchisch organisiert und enthält 

Auflösungen in verschiedenen räumlichen Skalen. Beim Übergang von einer Hierarchiestufe zur 

nächsten wird durch das Entropieprinzip gewährleistet, daß sich der Clusterort und die Clusterform an 

den Attraktor anpassen. 

Die Cluster in der letzen Ebene - die Blätter des binären Baumes - bilden eine Einteilung der 

Datenmenge in disjunkte kompakte Teilmengen. Ein anschauliches Beispiel für die Clusterung einer 2- 

dimensionalen Normalverteilung ist in Abbildung 3 zu sehen. Ausführlicher wird das Verfahren und 

dessen Ergebnisse in [2] diskutiert. 

25 Der Lage der Teilungshyperebene läßt sich senkrecht zur Eigenrichtung des größten Eigenwertes noch variieren, um 

weiter Optimierungen zu erreichen. Es kann einfach durch den Schwerpunkt, in gleiche Punktanzahl pro Cluster geteilt 

oder wie in [13] die Summe der Einzelvarianzen weiter minimiert werden. 

25

3.4 Funktionsapproximation 

Die Cluster definieren die Form und Reichweite der Radialfunktionen R j . Aus der Minimierung von (2) 

ergibt sich ein lineares Gleichungssystem in den Variablen a j und B j (5). Die Trennung des Algorithmus 

in Clusterung und Funktionswertfit bietet einen entscheidenden Vorteil: Die Clusterung läßt sich relativ 

schnell berechnen und ist nach dem Entropiekriterium optimiert. Für den Funktionswertfit läßt sich die 

optimale Lösung (für eine feststehende Clusterung) exakt bestimmen 26 . 

Das Radialfunktionensystem in (6) läßt sich entscheidend erweitern. Durch die Clusterung wurde der 

Attraktor hierarchisch bzgl. räumlichen Skalen untersucht. Diese Multiskaleninformation kann, wie 

auch in der wavelet-Theorie angewendet, für den Funktionswertfit verwendet werden. Dazu werden die 

lokalen Funktionen (5) nicht nur an den Blättern des binären Baumes definiert, sondern auch an dessen 

Knoten. Schicht für Schicht werden beginnend mit dem Hauptcluster die optimalen Parameter a und B 

bestimmt. Der verbleibende Fehler (2) der unteren Schichten wird in den höheren Schichten weiter 

reduziert. Durch schrittweises Zoomen in immer tiefere Schichten läßt sich bei diesem hierarchischen 

RBFS die Auflösung der Abbildung direkt einstellen. Ausführlicher wird das Verfahren und dessen 

Ergebnisse in [2] diskutiert. 

3.5 Parameter und Optimierung 

Einererseits beschränken die Radialfunktionen die Reichweite einer lokalen Funktion auf ein Cluster. 

Andererseits wird durch deren Ausdehnung und gegenseitige Überlappung eine Mittelung der 

Funktionswerte über benachbarte Phasenraumvolumina und letztendlich ein glatter 

Funktionswertverlauf des gesamten RBFS erreicht. Daher ist die Feinheit der Clusterung ein kritischer 

Parameter, durch den die Wichtung zwischen Smoothing und Differenzierung eingestellt wird. Bei stark 

verrauschten Signalen sollte stärker gemittelt und somit größere Cluster verwendet werden. Bei Daten 

aus streng deterministischen Systemen oder bei stark unstetigen Funktionen muß stärker differenziert 

werden. Durch die eingeführten hierarchischen Radialfunktionen läßt sich der Effekt der 

Clusterungstiefe gut untersuchen. Indem für den Fit immer mehr Schichten benutzt werden, bis der 

Fehler eines unabhängigen Datensatzes steigt, läßt sich die Grenze zum Overfitting genau finden. 

26 Den Großteil der Rechenzeit benötigt nicht das Lösen sondern die Bestimmung des Gleichungssytems. 

26

Auch durch den in (3) eingeführten Reichweitenskalierungsfaktor η läßt sich die Wichtung von 

Differenzierung und Glättung grob (für alle Cluster gleich) einstellen. Eine Verringerung dieses 

Parameters kann z.B. eine zu feine Clusterung wieder verschmieren. In der vorliegenden Arbeit wurde 

aber immer η = 5 verwendet und statt dessen die Clusterungsauflösung optimiert, um eine bessere 

Kontrolle über die Auflösung zu bekommen. 

Es bestehen verschiedene Möglichkeiten, das Abbruchkriterium des Clusterungsalgorithmus und somit 

die Feinheit der Clusterung zu definieren. Man kann die Clustertiefe begrenzen, wodurch immer ein 

ausgeglichener Baum entsteht, bei dem alle Blätter dieselbe Tiefe besitzen. In dieser Arbeit wird aber 

die Minimalgröße eines Cluster festgesetzt, d.h. die Größe ab der ein Cluster nicht weiter geteilt wird. 

Um dieses Kriterium zu erreichen, muß in einigen Phasenraumbereichen häufiger geteilt werden und es 

entsteht i.a. ein nicht ausgeglichener Baum. Der Vorteil ist, daß die Cluster gemäß der Punktdichte 

verteilt werden. Dort, wo die Dichte groß ist, werden mehr Cluster erzeugt, so daß jedes Cluster 

ähnliche viele Beispiele enthält (Abbildung 3). 

In Zusammenhang mit der Glättungseingenschaft steht auch die Form der lokalen Funktion in (5). Der 

lineare Teil hiervon erhöht die Ausdehnung der Radialfunktionen über die Clustergrenzen hinaus (in eine 

Richtung). Gerade dann, wenn eine stark nichtlineare Funktion gefittet werden soll, kann dieses die 

Qualität des Netzes mindern. Es reicht daher oft aus ihn Null zu setzen und nur den konstanten Teil zu 

verwenden 27 . Selbst wenn eine lineare Funktion gefittet werden soll, kann durch die Verwendung vieler 

Cluster mit konstanten lokalen Funktionen und der Überlappung der Radialfunktion eine glatte Funktion 

gebildet werden. In Tabelle 1 sind die Optimierungsmöglichkeiten zusammengefaßt. 

Parameter 

Feinheit der Clusterung 

Form der lokalen Funktion 

Hierarchie 

Fit 

Einstellungsmöglichkeiten 

minimale Clustergröße oder Schichttiefe 

konstant oder linear 

alle Blätter oder verschiedene Schichten 

Sukzessiv von Schicht zu Schicht oder alle Schichten gleichzeitig 

Tabelle 1: Parameter bei der Netzwerkoptimierung 

27 Das lineare Gleichungssystem würde zwar für die optimalen Parameter b=0 liefern, dieses stellt aber bei großen 

Eingabedimensionen einen unverhältnismäßig hohen und unnötigen Rechenaufwand dar, der quadratisch zur Clusteranzahl 

und zur Dimension steigt. 

27

4 

3 

P1 

P2 

P3 

2 

1 

y 

0 

-1 

-2 

-3 

-4 

-8 -6 -4 -2 0 2 4 6 8 

x 

Abbildung 3: Diese Grafik ist ein Produkt des Clusterungsalgorithmus. Es sind 2000 Punkte normalverteilt mit doppelter Varianz in x-Richtung generiert worden. Die Cluster an 

den Blättern des Teilungsbaumes sind durch Verbindungslinien vom Clusterschwerpunkt zu seinen Datenpunkten angedeutet. Der Algorithmus erzeugt durch das Einfügen von 

mehr senkrechten als waagerechten Teilungen automatisch runde Cluster. Auch enthalten alle Cluster ähnlich viele Datenpunkte, was durch eine tiefere Teilung in Bereichen mit 

höherer Dichte (in der Mitte) erreicht wird. (P1: Baumtiefe=5, P2: Baumtiefe=6, P3: Baumtiefe=7) 

28

4 Analyse von Luftstaubgemischen 


Die Verschmutzung der natürlichen Umwelt ist ein großes, wenn nicht sogar das größte Problem der 

heutigen Menschheit. Die Palette der Ursachen ist umfangreich, sie läßt sich aber in ihrer räumlichen 

Ausdehnung in globale und lokale Erscheinungen einteilen. Die Wirkung lokaler Emissionen von 

Schadstoffen bleibt durch den natürlichen Stofftransport i.a. jedoch nicht räumlich begrenzt, so daß die 

Zusammenhänge zwischen Ursache und Wirkung nicht direkt erkennbar sind. Lokale Ursachen können 

extreme weltweite Wirkung zeigen. Als deutliches Beispiel diene hier der Reaktorunfall in Tschernobyl. 

Die Bestimmung der Bedeutung einzelner Ursachen für die globale Umweltbelastung könnte effektive 

Ansatzpunkte zum Umweltschutz aufzeigen. 

In der hier durchgeführten Untersuchung wird genau dieses Ziel verfolgt: Die Detektion einzelner 

Schadstoffe (und somit der Schadstoffquellen) aus einem Gemisch von Schadstoffen. Die Analyse 

bezieht sich dabei auf Schadstoffe in der Luft. Da die Atmosphäre und deren Strömung die 

entscheidende Rolle bei der Verteilung von Schadstoffen über große Flächen spielt, erfaßt man somit 

einen großen Teil der global wirkenden Umweltverschmutzung. Die mitgeführten Feststoffe (Stäube) 

wirken dabei nicht nur in der Luft, sondern auch durch den Niederschlag herausgewaschen konzentriert 

auf der Erdoberfläche. 

In der Arbeitsgruppe Geochemie von Prof. Dr. Brumsack des ICBM der Universität Oldenburg wurden 

Stäube von ca. 20 Städten in Deutschland aus der Luft gefiltert. Um jahreszeitliche Effekte zu 

vermeiden sind diese Proben regelmäßig über längere Zeit mit großem Arbeitsaufwand gewonnen 

worden. Eine praktische Methode zu Probengewinnung war hierbei das Einsammeln von Spinnenweben, 

die fast über ein Jahr lang Staubpartikel akkumulieren können [15]. Da das Interesse der Untersuchung 

nicht in speziellen örtlichen Erscheinungen lag, sondern in einen Überblick über das Gebiet Deutschland 

wurden alle Proben vor einer weitere Untersuchung zu einer einzigen Probe miteinander vermischt. 

Diese eine Probe wurden anschließend chemisch aufgeschlossen und der Gehalt an 42 chemischen 

Elementen bestimmt. 

In dieser Arbeit soll aus den Daten des chemischen Analyseergebnisses ermittelt werden, durch welche 

Staubquellen und in welchem anteiligen Verhältnis der Staub wahrscheinlich gebildet wurde. Damit 

dieses gelingen kann müssen. 1. die Elementzusammensetzungen der Staubquellen bekannt sein und 2. 

die Staube sich in ihrer Elementzusammensetzung hinreichend genug voneinander unterscheiden. Von 

der Arbeitsgruppe von Prof. Dr. Brumsack wurden 21 Klassen als die wichtigsten Staubverursacher 

definiert, so daß man mit den 42 Elementen sogar ein überbestimmtes System erhält. Leider ist aber die 

29

Zusammensetzung vieler Stäube nicht exakt bekannt bzw. variiert, so daß die Überbestimmtheit dazu 

benutzt werden muß, um die Sicherheit des Ergebnisses zu erhöhen. 

Nicht alle Stäube in der Luft haben zivilisatorische Ursachen, denn rund 15% der Staubmassse wird 

durch verschiedene natürliche Prozesse in die Luft gebracht. Diese einzelnen Staubquellen sind aber 

nicht der Untersuchungsgegenstand der Arbeit. Sie werden nicht separiert, sondern zu Gruppen 

zusammengefaßt: Alles, was von der natürlichen Erdoberfläche in die Luft getragen wird, wird als 

kontinentaler Oberkrustenstaub bezeichnet. Alle Stäube pflanzlicher Natur werden ebenfalls zu einer 

Gruppe (Pflanzendetritus) zusammengefaßt. 

Das Interesse dieser Analyse liegt in der Bestimmung der künstlichen Staubverursacher, die möglichst 

genau separiert werden sollen. Dabei besteht das Problem, daß einige dieser Stoffe eigentlich Gemische 

sind und weiter unterteilt werden müßten. Zum Beispiel läßt sich der Reifenabrieb, als ein 

Hauptbestandteil der künstlichen Stäube, in die verschieden Herstellermischungen auftrennen, die sich 

erheblich voneinander unterscheiden können. Leider lassen sich Reifen chemisch schlecht analysieren 

und Informationen über deren Zusammensetzung werden von den Herstellen geheim gehalten. Ebenso 

schwer lassen sich Emissionsdaten z.B. von den Zementfabriken oder Verbrennungsanlagen [16] 

erhalten. Daher ist es sehr aufwendig, eine ausreichend genaue und umfangreiche Datenbasis für eine 

zuverlässige numerische Analyse aufzubauen. In der Arbeitsgruppe von Herrn Prof. Dr. Brumsack 

wurden daher Angaben aus der Literatur durch eigene Analysen ergänzt. Trotzdem muß davon 

ausgegangen werden, daß die Datenbasis Unsicherheiten bis zu 30% bei einigen 

Elementzusammensetzungen enthält. 

Eine Untersuchung, die auf einer so großen Datenbasis beruht ist unseres Wissens nach noch nicht 

durchgeführt worden und stellt einen großen Fortschritt in der Unweltanalytik dar. Aus dem Ergebnis 

dieser Untersuchung könnten weitreichende Konsequenzen gezogen werden, da sich der Anteil der 

einzelnen Verursacher an der gesamten Umweltverschmutzung klar nachweisen ließe. 

4.2 Aufgabenbeschreibung 

Aufgabenstellung: 

Eine Staubprobe ist chemisch analysiert und der Gehalt an 41 chemischen Elementen in mg Element pro 

kg Probenmaterial bestimmt worden. Bekannt ist weiterhin die elementare Zusammensetzung von 21 

wichtigen Stoffen aus denen die Probe gebildet wurde 28 . Diese Informationen werden in einer 

Konzentrationsmatrix C zusammengefaßt und sind in Tabelle 37 im Anhang einzusehen. 

28 Es wird angenommen, daß die Proben keine weiteren Stoffe enthält. 

30

Die Aufgabe besteht darin, aus der elementaren Zusammensetzung der Staubprobe auf die relativen 

Anteile der einzelnen Staubquellen zu schließen. Weiterhin soll untersucht werden, ob auch mit der 

Einbeziehung von weniger Elementen in die Rechnung, zuverlässige Ergebnisse erzielt werden können. 

Hierdurch ließe sich der chemische Analysenaufwand reduzieren. 

Probleme: 

Da einige Stoffe sehr ähnliche Zusammensetzungen aufweisen, sind in der Konzentrationsmatrix einige 

Spalten fast linear abhängig. Diese Entartung überträgt sich auf das zu lösende lineare 

Gleichungssystem in Form einer Spalten- und Zeilenentartung, wodurch numerische Ungenauigkeiten 

auftreten können. Außerdem ist die Konzentrationsmatrix stark fehlerbehaftet (ca. 30% Unsicherheit bei 

einigen Elementen), was zusätzlich eine Unsicherheit im Ergebnis produziert. 

Methoden: 

1. Durch geeignete Transformation der Elementkonzentrationen soll die Konzentrationsmatrix besser 

konditioniert und eine numerisch günstigere Basis geschaffen werden. 

2. Mit dem Verfahren der kleinsten Fehlerquadrate und einer Matrixinversion wird die 

wahrscheinlichste Stoffzusammensetzung ermittelt. 

3. Die zu invertierende Matrix wird in ihre Hauptkomponenten zerlegt und auf ihre relevanten 

Eigenrichtungen reduziert. Dieses wirkt der Entartung der Matrix entgehen und vermindert die 

Unsicherheit der Ergebnisse aufgrund von ungenauen Eingabedaten (Elementanalyse). 

4. Durch Korrelationsuntersuchungen sollen ähnliche Stoffe zu Gruppen zusammengefaßt werden, die 

dann als Kombinationsstoffe behandelt werden können. 

5. Die für die Stoffkonzentrationsbestimmung unwichtigen Elemente sollen aus der Datenbasis 

eliminiert und die daraus resultierende Veränderung der Ergebnisse untersucht werden. 

4.3 Mathematische Basis 

Ein Stoff j enthält i=1..M Elemente der Konzentrationen C ij . Ein Gemisch von j=1..N Stoffen, mit 

relativen Anteilen x j , enthält Elemente der Konzentrationen b i . Diese Größen stehen in folgender 

Beziehung: 

(10) b= C⋅x 

Gesucht wird für ein unbekanntes Stoffgemisch mit bekannter Elementzusammensetzung die 

wahrscheinlichste stoffliche Zusammensetzung im Sinne des kleinsten mittleren quadratischen Fehlers. 

Als Nebenbedingungen sind Einschränkungen im Wertebereich, x j =[0,1] sowie die Erhaltung der 

Gesamtmasse 

N 

∑ x j 

= 1 

j = 1 

zu berücksichtigen. Die erste Nebenbedingung wird im Endresultat korrigiert: 

Da Stoffe, für die sich negative Konzentrationen ergeben, höchst wahrscheinlich nicht im Gemisch 

enthalten sind, wird ihr Anteil explizit auf 0 gesetzt und in einer zweiten Rechnung eine neue Verteilung 

nach dem kleinsten quadratischen Fehler bestimmt. Die zweite Nebenbedingung der Massenerhaltung 

31

kann durch einen Lagrange-Parameter λ ′ berücksichtigt werden. Die Aufgabe lautet dann, von (11) ein 

Extremum zu bestimmen. 

M N 

N 

⎛ 

⎞ ⎛ ⎞ 

2 

(11) χ : = ∑⎜ 

− 

, 

⎟ − λ′ ⎜1− 

⎟ → 

= ⎝ 

b ∑ C x ∑ 

= ⎠ ⎝ 

x = ⎠ 

Minimum 

i i j j 

j 

i 

j 

j 

Daraus folgt: 

1 

1 

2 

1 

(12) ∂ χ 2 

∂ x 

(13) 

k 

⎛ 

⎞ 

= 2⋅∑ ⎜bi −∑Ci, jxj⎟ Cik 

, 

+ λ′ = 0 

i ⎝ j ⎠ 

2 

∂χ 

1 0 

∂λ′ =− + ∑x = j 

j 

λ 

Weiter ergibt sich mit λ = ′ 

2 

das Gleichungssystem 

⎛ ⎞ 

(14) ∑⎜∑Cik 

, 

Ci, j⎟ ⋅xj − λ = ∑Ci, 

kbi 

⎝ ⎠ 

j 

i 

i 

(15) ∑ x j 

= 1, 

oder in Matrixschreibweise, 

j 

(16) 

⎛ 

⎛ 

− 1⎞ 

⎛ x ⎞ ⎜ 

⎜ 

⎟ ⎜ ⎟ ⎜ 

⎜ CC 

T ⎟ 

⋅ ⎜ ⎟ 

= ⎜ 

⎜ 

− 1⎟ 

⎜ x ⎟ ⎜ 

N 

⎜ 

⎟ ⎜ ⎟ ⎜ 

⎝1 1 0 ⎠ ⎝ λ⎠ 

⎜ 

⎝ 

∑ 

1 i i, 

1 

i 

∑ 

i 

bC 

 

bC 

i 

1 

i, 

M 

⎞ 

⎟ 

⎟ 

⎟ . 

⎟ 

⎟ 

⎟ 

⎠ 

Das lineare Gleichungssystem wird mit Hilfe einer PCA-Zerlegung [20] und der dann sehr einfachen 

Invertierung der Matrix gelöst. Dabei sollen die Eigenrichtungen mit kleinen Eigenwerten nicht 

verwendet werden. Das Eliminieren von Eigenrichtungen in der kompletten LGS-Matrix 

(C T C&Nebenbedingung) bewirkt auch eine teilweises Wegblenden der Nebenbedingung. Um dieses zu 

vermeiden, wird wie folgt nur im C T C-Raum projeziert. 

Mit der diagonalen Matrix D und der orthonormalen Matrix U kann C T C gemäß 

T 

(17) CC= UDU ⋅ ⋅ 

zerlegt werden. 

−1 

32

⎛ 

Einsetzen in (16), Multiplikation von links mit U− 1 

0⎞ 

⎜ ⎟ 

⎝ 0 1⎠ 

und Einfügen einer Einheitsmatrix als 

U U 

E = ⎛ ⎝ ⎜ ⎞ 

⎟ ⋅ ⎛ −1 

0 

⎠ ⎝ ⎜ 0⎞ 

⎟ 

0 1 0 1⎠ 

vor dem Vektor der Unbekannten, führt auf das einfache Gleichungssystem 

(18) 

⎛ 

⎜ 

⎝ 

D 

−U 

⋅e⎞ 

⎛U 

⎟⋅⎜ 

x⎞ 

⎛U 

⎟ = ⎜ 

−1 −1 

−1 

T 

C b⎞ 

. 

( ) 

⎟ −1 

T 

U e 0 ⎟ ⎜ ⎟ ⎜ 

⎠ ⎝ λ ⎠ ⎝ 1 ⎠ 

Aus der komponentenweisen Darstellung 

(19) 

⎛d 

⎜ 

⎜ 

⎜ 

⎜ 

⎝ f 

11 , 

1 

1 

 

 

d 

f 

N, 

N 

N 

− f ⎞ ⎛ y1⎞ 

⎛ a1⎞ 

⎟ ⎜ ⎟ ⎜ ⎟ 

⎟ 

⋅ 

⎜ ⎟ 

= 

⎜ ⎟ 

− f ⎟ ⎜ 

N y ⎟ ⎜ 

N a ⎟ 

N 

⎟ ⎜ ⎟ ⎜ ⎟ 

0 ⎠ ⎝ λ ⎠ ⎝ 1 ⎠ 

mit 

⎧ 

⎪ 

⎨ 

⎪ 

⎩ 

−1 

f = U e 

−1 

y = U x 

−1 T 

a = U C b 

kann man sofort ablesen, daß y 

i 

ai 

f iλ = + ist. Fast entartete Spalten und Zeilen von C T C führen 

d d 

ii , ii , 

auf kleine Werte für d i,i und damit unter Umständen zu sehr großen y i . Da bei (fast) Entartung aber auch 

die a i nur von geringer Genauigkeit sind, ist es sinnvoll, die entsprechenden y i =0 zu setzen. Die übrigen 

y i werden gemäß obiger Gleichung bestimmt und mittels U auf die x i zurücktransformiert. 

Im folgenden soll genauer untersucht werden, wie sich die Fehler in den Elementkonzentrationen 

σ : = ( ) auf die Fehler in den Stoffkonzentrationen S 2 S 2 

σ j : = σ ( x j ) auswirken. Man geht von 

E 

2 E 2 

i σ b i 

Gleichung (14) ohne Betrachtung der Nebenbedingung aus: 

T 

T 

(20) CC⋅ x= 

Cb 

Mit 

(21) A = C T C 

ergibt sich 

(22) x= A −1 C T b 

Manipulationen in den Elementkonzentrationen b bewirken eine Änderung in den Stoffkonzentrationen 

x: 

S 2 

(23) σ j = ∑ 

M 

i = 1 

2⎛ 

∂ x j 

σ i 

⎜ 

⎝ ∂ bi 

Die Ableitung nach b i extrahiert die Spalte i von A −1 C 

T , so daß 

E 

⎞ 

⎟ 

⎠ 

2 

33

x j 

−1 

T 

(24) = ∑ A 

j kCk 

, i 

= ∑ A 

∂b 

∂ 

i 

k 

−1 

, j, 

kCi, 

k 

k 

(25) 

(26) 

S 

=∑ ∑∑ 

σ σ σ 

S 

σ 

2 E 

E 2 −1 −1 

j 

i Aj, kAj, lCi, kCi, 

l 

i k l 

∑ 

∑ 

= ∑A A σ C C 

2 −1 −1 E 2 

j j, k j, l i i, k i, l 

ist. 

k l i 

Unter der Annahme, daß der gleiche Fehler (=1) in allen Elementkonzentrationen vorliegt, ist nach (21) 

die rechte Summe gerade A k,l und ergibt mit der Matrix davor δ jk , 

, so daß 

2 

C T −1 

j 

= C , 

S σ ist. 

(27) ( ) j j 

Falls die Fehler in den Elementkonzentrationen nicht identisch sind, muß Gleichung (11) zu folgendem 

erweitert werden: 

(28) χ : = 

N 

⎛ 

⎞ 

⎜b − C x ⎟ 

⎛ 

− λ′ ⎜1− 

⎝ 

M i i, 

j j 

N 

2 ⎜ j= 

1 ⎟ 

∑ E 

⎜ 

1 σ ⎟ ∑ 

i= i 

j= 

1 

⎜ 

⎝ 

∑ 

⎟ 

⎠ 

2 

Für diesen Fall ergibt sich aber das Ergebnis entsprechend (27), mit folgender transformierten Matrix 29 . 

⎞ 

xj⎟ 

⎠ 

(29) C′ = 

i, 

j 

C 

i, 

j 

E 

σi 

Da sich C T C nach (17) zerlegen läßt, kann die Inverse hiervon als U⋅D 

−1 ⋅U 

T bestimmt werden. Für 

(27) gilt dann 

(30) 

U 

2 

S 

ji 

σ 2 j 

=∑ , 

i di 

Als sinnvolles Fehlermaß für die Qualität der ganzen Analyse eignet sich die Summe über alle Fehler in 

den Stoffkonzentrationen. 

S 

(31) ∑ σ 

j 

= ∑ ∑ 

j 

2 1 

Da aber U orthonormal ist, ergibt die hintere Summe für alle i eine 1. 

i 

d 

i 

j 

U 

2 

i, 

j 

(32) 

∑ 

j 

σ 2 j 

= ∑ 

1 

d 

S 

i 

i 

34

Man erkennt, daß kleine d i der Gesamtfehler stark erhöhen und daher zur effektiven Fehlerminimierung 

die kleine d i in Gleichung (19) eliminiert werden sollten. 

4.4 Voruntersuchungen 

4.4.1 Stoffsortierung 

Die Entartung der Konzentrationsmatrix C (Tabelle 37 im Anhang) bzgl. der Stoffe (Matrixspalten) soll 

genauer analysiert werden. Dazu werden die Skalarprodukte zwischen allen Paaren von 

Spaltenkombinationen betrachtet. Die Spalten werden vorher auf Vektorlänge 1 normiert, damit nur der 

Winkel zwischen den Vektoren eine Rolle spielt. Die Ergebnisse sind in der Kreuzkorrelationsmatrix 

(KKM) in Abbildung 4 dargestellt. Die hier verwendete grafische Darstellung einer Matrix wird häufig 

in dieser Arbeit verwendet. Sie ist übersichtlicher als eine Zahlentabelle und wird wie folgt interpretiert: 

Die Größe des Matrixelementes entspricht der Kantenlänge der Quadrate, die je nach Grafikskalierung 

zu Rechtecken verzerrt sein können. Das Vorzeichen wird durch ein Kreuz (entsprechend plus für 

positiv) und durch eine horizontale Linie (entsprechend minus für negativ) im Quadrat dargestellt. Das 

Zentrum eines Rechteckes hat die Koordinaten der entsprechenden Zeile (Abszisse) bzw. Spalte 

(Ordinate) der Matrix. 

Die Nummern an den Koordinatenachsen entsprechen den Stoffnummern in Tabelle 37 im Anhang. So 

stellt z.B. die erste Matrixspalte die Korrelationen des Stoffes 1 mit allen anderen Stoffen dar. Beim 

Betrachten der Grafik findet man andere Stoffe, die ähnliche Korrelationsmuster besitzen und kann 

aufgrund dieser wechselseitigen Beziehungen Gruppen von ähnlichen Stoffen finden. Diese Gruppen 

können deutlicher sichtbar werden, wenn die Spalten der Konzentrationsmatrix (Stoffe) umsortiert 

werden. Hierzu wurde ein Sortieralgorithmus verwendet, der auf einem Vergleich der Spalten der 

Korrelationsmatrix untereinander beruht. Ausgehend von einer Spalte, die explizit an die erste 

Sortierstelle gestellt wird, sucht man die „nächst ähnlichste“ Spalte (durch das kleinstes Skalarprodukt 

definiert), die dann die 2. Stelle einnimmt. Die Spalte an 2. Stelle dient dem nächsten Vergleich. Dieses 

Verfahren wird so lange fortgeführt, bis zur vorletzten Spalte sortiert worden ist. Die letzte verbleibende 

Spalte wird an die letzte Stelle sortiert. 

Die resultierende Sortierreihenfolge ist natürlich von der Wahl des Ausgangsstoffes abhängig. Als 

„Start-Stoff“ wurde Pflanzendetritus gewählt, da sich damit subjektiv die beste Sortierung ergab. 

Außerdem wurden innerhalb von großen Korrelationsgruppen einige wenige Umsortierungen von Hand 

vorgenommen, die von der umskalierten Konzentrationsmatrix des nächsten Abschnitts nahegelegt 

wurden. 

29 [20] Kapitel 15. Modelling of Data 

35

Das Resultat der Sortierung ist in Tabelle 2 angegeben, die dazugehörige Korrelationsmatrix in 

Abbildung 6. Die Stoffgruppen, die in der Matrix zu erkennen sind, wurden in der Tabelle markiert. In 

den folgenden Abschnitten wird nur diese Sortierung verwendet falls nicht anders vermerkt, d.h. alle 

Stoffnummern beziehen sich auf diese Tabelle. In Abbildung 5 ist zusätzlich die Korrelationsmatrix in 

einer höheren Auflösung angegeben, wodurch die Unterschiede bei fast parallelen Vektoren verstärkt 

werden und die Feingruppierungen innerhalb einer Gruppe besser zu erkennen sind. 

Bemerkung: Stoff 15 (Müllverbrennungsstaub) ist wie zu erwarten mit allen anderen Stoffen korreliert. 

Stoffgruppen 

Nr. Orig. Nr. Stoff 

1 18 Pflanzendetritus 

2 3 Dieselfeststoffemission 

3 1 Reifenabrieb 

4 2 Teer 

5 15 Rückstand Heizöl leicht 

6 13 Bremsabrieb I 

7 4 Benzinfeststoffemission 

8 16 Rückstand Heizöl schwer 

9 14 Bremsabrieb II 

10 12 Reingasstaub Stahl 

11 9 Reingasstaub Braunkohle 

12 5 Zementabrieb 

13 7 Kalk 

14 11 Reingasstaub Zement 

15 10 Reingasstaub Müllverbrennung 

16 17 Meersalz 

17 20 Chlor 

18 8 Reingasstaub Steinkohle 

19 6 Ziegelabrieb 

20 21 Kontinentale Oberkruste 

21 19 Schwefel 

Tabelle 2: Ergebnis der Stoffsortierung nach Korrelationen untereinander. Die Gruppen ähnlicher 

Stoffe sind durch dicke Linien separiert. 

36

20 

20 

15 

15 

10 

10 

5 

5 

0 

0 5 10 15 20 

0 

0 5 10 15 20 

Abbildung 4: Stoffskalarprodukte in der originalen 

Stoffsortierung (Kantenlänge ist Matrixelement hoch 

0.5) 

Abbildung 5: Stoffskalarprodukte der umsortierten 

Stoffe (Kantenlänge ist Matrixelement hoch 20) 

20 

15 

10 

5 

0 

0 5 10 15 20 

Abbildung 6: Stoffskalarprodukte der umsortierten Stoffe (Kantenlänge ist Matrixelement hoch 0.5) 

37

4.4.2 Transformation der Konzentrationsmatrix 

Die Konzentrationsmatrix C enthält Elementkonzentrationen in sehr unterschiedlichen 

Größenordnungen. (Z.B. Zementabrieb 5⋅10 5 mg/kg, Kalzium und Teer nur 32 mg/kg). Diese schlechte 

Konditionierung von C wirkt sich ungünstig auf das numerische Lösen des LGS aus. Die grafische 

Darstellung der Matrix in Abbildung 7 liefert einen Überblick über das Ausmaß und die Verteilung des 

Ungleichgewichtes. Zu beachten ist dabei, daß die Quadrate mit kleinem Exponenten skaliert wurden, 

um überhaupt die kleinen Elementkonzentrationen noch erkennen zu können. 

Ein weiteres Problem sind die stark unterschiedlichen Elementkonzentrationen der Probe, denn dadurch 

werden die Elemente unterschiedlich stark im Least-Square-Fit gewichtet. Um dieses Problem zu 

umgehen, bietet sich eine Umskalierung aller Elementkonzentrationen in der Probe auf 1 an. Es wird 

dabei angenommen, das die Elemente mit derselben relativen Präzision analytisch bestimmt werden 

können. 

Der Nachteil bei dieser Methode ist, daß die Probenzusammensetzung einen sehr großen Einfluß auf die 

Skalierung der Matrix und somit generell auf die Untersuchungsmethode hat. Die Ergebnisse der 

Untersuchung anderer Proben würden nicht mehr vergleichbar sein. Entscheidender ist aber, daß den 

Ungenauigkeiten in der Mischungsmatrix 30 keine Rechnung getragen würde, die ebenso das Ergebnis 

beeinflußt, wie der Meßfehler in der Probennahme. 

Daher wird eine anderer Weg eingeschlagen: Die Elementkonzentrationen werden so umskaliert, daß sie 

in der Mischungsmatrix einen ähnlichen Fehler besitzen. Der größte Wert, der in der 

Konzentrationsmatrix für ein Element vorliegt, dient als eine grobe Bandbreitenabschätzung der 

Variation der Elementkonzentrationen. Deshalb wird jede Elementkonzentration in C einzeln durch 

diesen größten Wert dividiert. In Abbildung 8 ist das Resultat der Elementtransformation für die 

Mischungsmatrix dargestellt. Man erkennt an der gleichmäßigeren Größenverteilung der Quadrate eine 

wesentlich besser konditionierte Matrix. 

30 Dabei spielt nicht nur die Genauigkeit der chemische Analyse eine Rolle, sondern die Unsicherheit über die 

Klassifizierung eines Stoffes. (Inhomoge Stoffgemische werden zusammengefaßt.) 

38

40 

40 

35 

35 

30 

30 

25 

25 

20 

20 

15 

15 

10 

10 

5 

5 

0 

0 5 10 15 20 

0 

0 5 10 15 20 

Abbildung 7: Konzentrationsmatrix C 

0.3 

(Kantenlänge = C i, j 

) 

Abbildung 8: Konzentrationsmatrix nach 

0.3 

Elementskalierung (Kantenlänge = C i, j 

) 

Die Elementkonzentrationen in der gegebenen Probenanalyse ändern sich entprechend der Tabelle 3. 

Man erkennt eine Variation von 0.2 bei Stoff 5 bis 0.003 bei Stoff 40. D.h. die Elemente werden zwar 

immer noch unterschiedlich im Least-Square-Fit gewichtet, dieses aber wesentlich gleichmäßiger als 

vorher. Wie man aber in Abschnitt 4.6.3 (Reduktion der Element) erkennen kann, scheinen einige 

Elemente trotz ihres geringen Gewichtes einen großen Einfluß auf die Lösung zu haben und umgekehrt. 

Deshalb ist es sinnvoll, neben der reinen numerischen Untersuchung zusätzlich chemisches Wissen über 

die Bedeutung einiger Elemente für die Detektion spezieller Stoffe einzubeziehen, wie in diesem 

Abschnitt durchgeführt. 

0.023 0.183 0.164 0.035 0.200 0.012 0.604 0.108 0.030 0.013 

0.070 0.071 0.015 0.180 0.045 0.067 0.077 0.06 0.161 0.174 

0.033 0.006 0.025 0.086 0.015 0.113 0.037 0.052 0.060 0.003 

0.092 0.208 0.170 0.011 0.163 0.088 0.135 0.068 0.065 0.003 

0.058 0.028 

Tabelle 3: Stoffkonzentrationen in der Probe nach der Umskalierung (Elemente 1-42 von links oben nach 

rechts unten sortiert) 

39

Die Elementskalierung beeinflußt die Korrelation der Stoffe und die Gruppenbildung. In der Abbildung 

9 sind die Stoffskalarprodukte nach der Transformation der Elementkonzentrationen dargestellt. Man 

erkennt, daß die grobe Struktur erhalten bleibt. Innerhalb der Gruppen, insbesondere innerhalb der 

ersten, kann aber nun als zusätzlicher Effekt besser differenziert werden (vergl. mit Abbildung 6). 

Die Umskalierung der Elementkonzentration ändert nicht die Lösung des linearen Gleichungssystems 

(10). Daher wird in allen folgenden Abschnitten immer die transformierte Konzentrationsmatrix 

verwendet. Sie erhält kein neues Symbol, sondern wird ebenso mit C bezeichnet. 

Matrix with Scaling =0.5 

20 

15 

10 

5 

0 

0 5 10 15 20 

Abbildung 9: Spalten-Skalarprodukte der umskalierten Matrix 

4.4.3 Hauptkomponentenzerlegung des LGS 

In diesem Abschnitt wird untersucht, wie sich die Entartung der Konzentrationsmatrix und somit auch 

die der Matrix C T C beim Lösen des linearen Gleichungssystems auswirkt. Dazu wird eine 

Haupkomponentenzerlegung (PCA - Principal Component Analysis) [20] von C T C durchgeführt, deren 

Ergebnis als Grafik in Abbildung 10 dargestellt ist und wie folgt zu interpretieren ist. 

Die PCA-Grafik besteht aus der Matrixgrafik inclusive einer Kurve, welche die Eigenwerte w i darstellt. 

Die orthonormale Matrix (U -1 ) T (=U) aus (17) wird nach der oben beschriebenen Methode gezeichnet, 

daher entspricht die Abszisse der Eigenvektornummer und die Spalten enthalten die 

Komponentendarstellung der Eigenvektoren im ursprünglichen 31 (Stoff-)Koordinatensystem. Die 

31 

Die PCA-Zerlegung wird dabei als eine Komposition von Abbildungen aufgefaßt: Transformation in das 

Eigenvektorsystem mit U -1 , Stauchung bzw. Streckung um die Eigenwerte mit D, Rücktransformation in alte Basis mit U. 

40

Eigenwerte werden in Form einer Kurve an die Ordinate abgetragen. Da bei dem vorliegenden Problem 

nicht deren absolute Größe entscheidend ist, sondern nur das Verhältnis zueinander werden die 

Eigenwerte umskaliert: Der größte Eigenwert wird auf die Zeilenzahl der Matrix gesetzt. 

Die Eigenvektoren werden in der Grafik nach der Größe ihrer Eigenwerte sortiert. Der Vektor mit dem 

größten Eigenwert bildet die linke Matrixspalte und der mit dem kleinsten die rechte. An den 

Komponenten (Spalten) jedes einzelnen Eigenvektors läßt sich deren Zusammensetzung erkennen. Z.B. 

besteht der rechten Eigenvektor hauptsächlich aus einer Kombination von Stoff 5 mit negativem 

Vorzeichen sowie Stoff 3 und 4 mit positivem Vorzeichen (Rückstand Heizöl leicht - Reifenabrieb - 

Teer), einer Kombination der Steingruppe (Stoff 11-12-13, Reingasstaub - Braumkohle - 

Zementabrieb - Kalk) und weiteren kleineren Komponenten. Durch das Wegblenden dieser 

Eigenrichtung würde die entsprechende Linearkombination von Stoffen bei der Lösung des LGS 

wegfallen. 


20 

15 

10 

5 

0 

0 5 10 15 20 

Abbildung 10: Hauptkomponentenzerlegung von C T C ohne Nebenbedingung 

In Tabelle 4 stehen die Beträge der Eigenwerte, die in der Abbildung 10 nicht ersichtlich sind. Man 

erkennt, daß sich der größte und der kleinste Eigenwert um einen Faktor von rund 4000 unterscheiden. 

Die kleinen Eigenwerte bewirken, daß sich ein Meßfehler in der Probennahme stark auf die Form der 

Lösung auswirkt (23). Der 16. Eigenwert unterscheidet sich nur um rund einen Faktor 100 von größten 

41

Eigenwert, so daß durch eine Projektion auf die größten 16 Eigenrichtungen die Unsicherheit aufgrund 

von Meßfehlern verringert werden kann. 

Stoffummer 1 2 3 4 5 6 7 8 9 10 

Eigenwert 29 9.5 7.2 4.8 4.1 3.6 2.8 2.6 2.0 1.6 

Stoffnummer 11 12 13 14 15 16 17 18 19 20 

Eigenwert 1.3 0.99 0.73 0.57 0.548 0.26 0.079 0.033 0.024 0.010 

Stoffnummer 21 

Eigenwert 0.007 

Tabelle 4: Eigenwerte der PCA-Zerlegung. (Stoffnummern nach Tabelle 2) 

In Abbildung 11 wird eine wichtige mathematische Idee dieser Analyse deutlich: Sie zeigt die PCA- 

Zerlegung von C T C inclusive der Nebenbedingung. Man erkennt, daß durch das Wegprojizieren der 

Eigenrichtungen mit kleinem Eigenwert auch die Nebenbedingung (Nebenbedingung entspricht Zeile 22) 

teilweise eliminiert wird (bei der 13. Eigenrichtung sehr deutlich mit negativem Vorzeichen), so daß sich 

dadurch nicht mehr 100% für die Summe der Konzentrationen ergeben würden. Durch Abseparieren der 

Nebenbedingung vor der PCA-Zerlegung, wie hier durchgeführt, wird dieser Effekt vermieden. 


20 

15 

10 

5 

0 

0 5 10 15 20 

Abbildung 11: Hauptkomponentenzerlegung von C T C & Nebenbedingung. 

Dargestellt ist die Matrix U und die Eigenwerte 

42

4.4.4 Sensibilitätsbetrachtung 

Da sowohl die Konzentrationsmatrix als auch die Probenanalyse eine gewisse Unsicherheit beinhalten, 

soll in diesem Abschnitt untersucht werden, wie sich Veränderungen dieser Datenbasis auf das Ergebnis 

auswirken. Zu diesem Zweck werden die Probendaten manipuliert, indem erstens 5 % addiert, zweitens 

5 % subtrahiert und drittens 5 % Normalrauschen addiert werden. Mit der Konzentrationsmatrix wird 

ebenso verfahren. Die Ergebnisse für diese Analyse sind unter der Verwendung aller Eigenrichtungen in 

Tabelle 5 aufgeführt. 

Manipul. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Nicht 

manip. 

Daten 

-4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84 

- 

20.78 

29.75 4.87 

Probe -5% -3.80 19.21 17.70 25.57 7.08 0.41 1.84 0.31 0.02 2.32 2.71 6.29 -0.32 1.14 1.87 0.27 0.58 3.75 

Probe 

+5% 

Probe 

+1% Noise 

-4.68 23.35 24.10 30.95 

- 

11.29 

0.85 2.43 0.49 -0.16 2.20 4.39 8.16 -3.21 1.27 2.01 0.75 -0.17 3.93 

-4.83 20.57 21.38 28.98 -2.16 0.67 2.09 0.33 -0.10 2.31 3.18 7.27 -1.52 1.23 1.93 0.58 0.14 4.32 

C -5% -4.70 23.46 24.27 31.09 

- 

11.77 

0.86 2.45 0.50 -0.17 2.20 4.43 8.21 -3.28 1.28 2.01 0.77 -0.19 3.94 

C +5% -3.82 19.30 17.85 25.70 6.64 0.42 1.86 0.31 0.02 2.32 2.75 6.33 -0.39 1.15 1.88 0.28 0.56 3.75 

C + 5% 

Noise 

-4.26 21.36 21.16 28.22 -2.95 0.68 2.22 0.41 -0.08 2.28 3.17 6.49 -0.41 1.13 1.92 0.31 0.33 3.92 

- 

19.31 

- 

22.24 

- 

21.46 

- 

22.32 

- 

19.38 

- 

20.85 

28.02 4.36 

31.47 5.37 

30.21 4.87 

31.56 5.40 

28.11 4.38 

30.00 4.94 

Tabelle 5: Sensibilität der Lösung gegenüber Manipulation der Probendaten (Stoffnummer der Spalten nach 

Tabelle 2) 

In Tabelle 6 bis Tabelle 8 sind alle Lösungen des LGS angegeben die man erhält, wenn sukzessiv die 

Eigenrichtungen weggeblendet werden. Durch den Vergleich der drei Tabellen für jeweils gleiche 

Eigenrichtungen erkennt man, daß die Lösung mit weniger Eigenrichtungen (z.B. mit 15) i.a. 

unempfindlicher auf Manipulationen der Eingabedaten reagiert, als die Lösung für alle 22 

Eigenrichtungen. Die Projektion auf den Unterraum stellt also eine Fehlerunterdrückung dar. 

EV 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13 

3 2.22 5.15 3.39 2.30 1.85 6.90 8.86 4.27 13.73 13.77 4.68 2.28 1.55 3.53 11.20 1.53 0.14 9.32 1.50 1.69 0.15 

4 3.04 6.19 4.69 3.75 2.71 10.44 8.31 5.31 18.77 4.30 5.42 3.63 2.39 3.09 -1.76 1.80 -0.03 9.59 4.10 4.13 0.12 

5 4.11 8.04 6.00 4.60 3.53 9.69 13.22 8.51 12.96 6.80 5.61 2.54 1.65 2.38 -6.07 0.84 -0.24 11.80 1.78 2.01 0.25 

6 4.55 7.32 5.75 4.55 3.68 7.55 16.43 4.44 6.01 0.64 9.01 5.05 5.77 7.53 -1.64 7.37 1.24 5.10 -0.95 0.05 0.54 

7 4.95 8.32 6.76 5.51 4.21 7.93 17.71 5.60 5.80 -3.29 7.22 3.39 4.16 8.06 1.21 5.45 0.96 6.24 -0.76 -0.06 0.64 

8 4.66 8.33 6.81 5.73 4.28 7.92 13.60 12.03 3.57 -3.66 7.09 3.71 4.36 -0.18 3.50 7.83 1.82 5.53 0.93 1.37 0.76 

9 5.15 10.21 8.58 7.06 5.12 9.15 16.37 5.42 2.59 -3.47 7.24 3.30 3.81 -5.79 3.93 8.27 1.89 5.36 2.70 3.05 0.04 

10 5.91 12.03 11.58 10.12 6.35 12.62 12.05 4.16 -2.55 2.33 2.05 4.13 1.85 0.36 2.67 0.18 -1.14 -1.89 8.72 8.47 -0.02 

11 5.78 12.00 11.53 10.08 6.32 12.57 12.02 4.05 -2.53 2.49 1.55 3.49 1.35 0.62 2.50 0.92 -0.49 -1.72 8.88 8.60 -0.03 

12 6.92 15.02 13.90 12.36 7.43 16.61 3.99 0.72 -4.46 2.23 2.11 4.03 2.14 1.29 2.69 1.08 0.70 3.57 4.10 4.21 -0.62 

13 6.52 14.55 13.46 11.88 7.49 15.95 4.07 -0.11 -4.10 2.18 2.46 3.59 1.76 0.71 2.56 0.38 0.13 4.06 3.85 3.92 4.71 

14 6.96 14.44 13.35 11.80 7.35 15.07 4.29 -0.24 -3.77 2.13 2.19 4.47 1.92 0.43 2.54 -0.82 2.11 4.10 3.72 3.76 4.21 

15 10.51 20.10 16.29 14.69 8.87 3.17 1.92 -0.73 -0.42 2.63 -0.07 4.38 2.42 0.84 1.87 2.37 -3.56 4.27 3.12 4.44 2.88 

16 0.92 24.22 18.61 15.83 10.13 0.78 1.20 -0.26 -0.05 2.53 4.48 2.42 2.66 1.50 1.71 0.46 -1.14 3.22 4.09 4.12 2.57 

17 -0.04 24.70 18.37 15.81 10.04 0.93 1.49 -0.28 -0.10 2.51 3.01 3.59 3.06 1.44 1.70 0.79 -1.29 3.48 4.10 3.87 2.81 

18 1.32 29.88 13.76 14.37 8.90 1.58 1.21 -0.22 -0.34 2.31 3.59 2.52 3.45 1.54 1.77 0.20 -0.64 2.80 2.80 6.03 3.19 

19 -0.28 27.99 13.49 15.88 9.84 1.82 1.64 -0.27 -0.34 2.44 1.47 -0.68 9.16 1.23 1.75 -0.66 -0.62 3.71 -1.98 11.57 2.84 

20 -2.69 24.88 27.08 8.84 7.78 1.49 1.43 0.34 -0.18 1.87 1.65 6.05 0.83 1.34 2.01 0.19 0.13 3.41 -18.8 28.32 4.08 

21 -4.56 21.97 19.30 21.79 9.23 0.88 1.81 0.31 -0.05 2.01 4.02 10.23 -6.51 1.29 2.06 0.92 -0.34 3.48 -22.2 30.66 3.76 

22 -4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84 -20.9 29.75 4.87 

Tabelle 6: Lösungen ohne Manipulation der Daten 

In einer Spalte wird jeweils ein Stoff (Stoffnummern laut Tabelle 2) aufgeführt. In den Zeilen wurde von oben 

nach unten jeweils eine Eigenrichtung (EV) mehr verwendet. Die erste Eigenrichtung stellt die 

Nebenbedingung dar und wird nicht eliminiert. 

43

EV 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13 

3 2.23 5.17 3.41 2.32 1.86 6.94 8.89 4.29 13.82 13.82 4.65 2.25 1.54 3.50 11.21 1.52 0.14 9.23 1.43 1.62 0.15 

4 3.06 6.22 4.72 3.79 2.73 10.53 8.33 5.34 18.92 4.23 5.40 3.62 2.39 3.05 -1.90 1.80 -0.03 9.51 4.07 4.10 0.12 

5 4.11 8.03 6.00 4.62 3.53 9.79 13.14 8.47 13.23 6.68 5.59 2.55 1.66 2.36 -6.12 0.86 -0.24 11.67 1.79 2.02 0.24 

6 4.56 7.29 5.75 4.57 3.69 7.56 16.50 4.23 5.97 0.25 9.14 5.17 5.97 7.74 -1.50 7.68 1.31 4.67 -1.06 -0.03 0.55 

7 4.94 8.23 6.69 5.47 4.19 7.91 17.69 5.32 5.78 -3.46 7.46 3.61 4.45 8.24 1.19 5.88 1.04 5.74 -0.88 -0.13 0.64 

8 4.64 8.23 6.76 5.71 4.26 7.90 13.37 12.08 3.43 -3.83 7.32 3.94 4.66 -0.43 3.60 8.38 1.95 5.00 0.89 1.38 0.77 

9 5.09 9.99 8.41 6.95 5.05 9.06 15.96 5.90 2.52 -3.66 7.46 3.56 4.15 -5.67 4.00 8.79 2.02 4.84 2.55 2.95 0.10 

10 5.86 11.85 11.47 10.07 6.30 12.60 11.55 4.62 -2.73 2.26 2.16 4.41 2.15 0.60 2.71 0.53 -1.08 -2.55 8.70 8.48 0.03 

11 5.68 11.80 11.40 10.01 6.25 12.53 11.51 4.45 -2.69 2.49 1.43 3.48 1.42 0.99 2.46 1.60 -0.12 -2.31 8.92 8.66 0.02 

12 6.81 14.80 13.75 12.27 7.35 16.53 3.55 1.14 -4.61 2.23 1.99 4.01 2.20 1.65 2.65 1.76 1.05 2.94 4.18 4.31 -0.56 

13 6.32 14.23 13.21 11.69 7.43 15.73 3.63 0.14 -4.18 2.17 2.42 3.48 1.74 0.95 2.49 0.92 0.36 3.53 3.87 3.95 5.89 

14 6.98 14.06 13.06 11.58 7.22 14.44 3.96 -0.05 -3.69 2.10 2.01 4.78 1.99 0.54 2.46 -0.87 3.30 3.59 3.69 3.71 5.16 

15 10.50 19.68 15.97 14.44 8.73 2.63 1.62 -0.53 -0.37 2.59 -0.23 4.70 2.48 0.95 1.80 2.29 -2.32 3.76 3.10 4.39 3.84 

16 1.64 23.49 18.11 15.49 9.89 0.43 0.95 -0.10 -0.02 2.50 3.97 2.88 2.70 1.55 1.65 0.53 -0.08 2.78 3.99 4.09 3.55 

17 1.11 23.75 17.98 15.48 9.84 0.51 1.11 -0.11 -0.05 2.49 3.16 3.53 2.92 1.52 1.65 0.72 -0.17 2.93 3.99 3.96 3.68 

18 2.03 27.26 14.86 14.50 9.07 0.95 0.92 -0.07 -0.21 2.35 3.55 2.81 3.18 1.59 1.69 0.32 0.27 2.47 3.11 5.42 3.94 

19 -0.31 24.50 14.47 16.72 10.44 1.31 1.55 -0.15 -0.22 2.54 0.45 -1.87 11.54 1.13 1.66 -0.94 0.31 3.81 -3.87 13.53 3.42 

20 -2.12 22.17 24.64 11.45 8.90 1.06 1.39 0.30 -0.10 2.11 0.58 3.16 5.31 1.22 1.86 -0.31 0.86 3.58 -16.49 26.06 4.36 

21 -3.89 19.40 17.24 23.75 10.28 0.48 1.75 0.28 0.03 2.25 2.84 7.14 -1.67 1.17 1.91 0.38 0.42 3.65 -19.73 28.28 4.05 

22 -3.80 19.21 17.70 25.57 7.08 0.41 1.84 0.31 0.02 2.32 2.71 6.29 -0.32 1.14 1.87 0.27 0.58 3.75 -19.31 28.02 4.36 

Tabelle 7: Lösungen für Probenkonzentration -5 % 

EVf 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13 

3 2.22 5.13 3.37 2.29 1.84 6.85 8.83 4.25 13.64 13.72 4.71 2.31 1.56 3.56 11.18 1.53 0.13 9.41 1.57 1.75 0.15 

4 3.03 6.15 4.65 3.72 2.69 10.35 8.28 5.28 18.62 4.37 5.44 3.65 2.39 3.12 -1.62 1.80 -0.03 9.68 4.14 4.17 0.12 

5 4.12 8.04 5.99 4.58 3.53 9.58 13.31 8.54 12.68 6.93 5.63 2.53 1.64 2.40 -6.02 0.82 -0.25 11.93 1.77 2.00 0.25 

6 4.54 7.36 5.75 4.54 3.67 7.54 16.37 4.66 6.04 1.03 8.88 4.93 5.58 7.32 -1.79 7.06 1.17 5.52 -0.84 0.12 0.53 

7 4.96 8.42 6.82 5.55 4.24 7.94 17.72 5.89 5.82 -3.13 6.99 3.17 3.87 7.88 1.23 5.03 0.87 6.73 -0.64 0.01 0.64 

8 4.69 8.42 6.87 5.76 4.30 7.93 13.82 11.98 3.71 -3.48 6.86 3.48 4.06 0.06 3.41 7.29 1.69 6.06 0.96 1.37 0.75 

9 5.21 10.43 8.76 7.18 5.20 9.24 16.78 4.94 2.66 -3.28 7.03 3.03 3.47 -5.91 3.87 7.75 1.77 5.88 2.85 3.16 -0.02 

10 5.95 12.21 11.70 10.18 6.40 12.64 12.55 3.71 -2.37 2.41 1.94 3.85 1.55 0.11 2.63 -0.17 -1.21 -1.22 8.75 8.47 -0.08 

11 5.88 12.19 11.67 10.16 6.38 12.62 12.53 3.65 -2.36 2.49 1.67 3.50 1.28 0.25 2.54 0.23 -0.85 -1.13 8.83 8.54 -0.08 

12 7.03 15.24 14.05 12.45 7.50 16.68 4.44 0.29 -4.30 2.23 2.23 4.05 2.07 0.92 2.73 0.39 0.34 4.20 4.01 4.12 -0.68 

13 6.71 14.87 13.70 12.07 7.55 16.16 4.50 -0.36 -4.02 2.19 2.51 3.70 1.77 0.47 2.63 -0.15 -0.10 4.59 3.82 3.88 3.52 

14 6.94 14.81 13.65 12.03 7.48 15.71 4.61 -0.43 -3.86 2.17 2.37 4.15 1.86 0.33 2.62 -0.77 0.91 4.61 3.75 3.80 3.27 

15 10.52 20.52 16.62 14.94 9.01 3.70 2.23 -0.92 -0.48 2.66 0.10 4.06 2.36 0.74 1.95 2.44 -4.81 4.78 3.15 4.48 1.93 

16 0.20 24.95 19.11 16.17 10.37 1.14 1.45 -0.42 -0.08 2.56 4.99 1.95 2.62 1.44 1.78 0.39 -2.20 3.65 4.19 4.15 1.59 

17 -1.19 25.64 18.76 16.14 10.23 1.35 1.88 -0.45 -0.15 2.53 2.87 3.65 3.20 1.36 1.76 0.87 -2.42 4.03 4.21 3.78 1.94 

18 0.61 32.50 12.66 14.23 8.73 2.21 1.50 -0.36 -0.47 2.26 3.62 2.23 3.71 1.49 1.85 0.09 -1.56 3.13 2.48 6.64 2.44 

19 -0.25 31.49 12.51 15.04 9.23 2.34 1.73 -0.39 -0.47 2.33 2.49 0.51 6.78 1.32 1.84 -0.37 -1.55 3.62 -0.08 9.61 2.25 

20 -3.27 27.59 29.53 6.23 6.65 1.92 1.47 0.37 -0.27 1.62 2.71 8.94 -3.65 1.47 2.17 0.69 -0.61 3.24 -21.2 30.58 3.81 

21 -5.23 24.53 21.35 19.83 8.18 1.28 1.87 0.34 -0.13 1.77 5.21 13.33 -11.4 1.42 2.22 1.45 -1.10 3.31 -24.8 33.03 3.47 

22 -4.68 23.35 24.10 30.95 -11.3 0.85 2.43 0.49 -0.16 2.20 4.39 8.16 -3.21 1.27 2.01 0.75 -0.17 3.93 -22.2 31.47 5.37 

Tabelle 8: Lösungen für Probenkonzentration +5 % 

4.5 Hauptuntersuchung 

Nach den Voruntersuchungen wird in diesem Abschnitt die wahrscheinliche Stoffzusammensetzung der 

Probe bestimmt. In Tabelle 9 sind die Lösungen des LGS für die verschiedene Anzahl von 

Eigenrichtungen angegeben. Diese Tabelle entspricht der Tabelle 6 mit zusätzlichen Informationen: Die 

Unsicherheiten in den Stoffkonzentrationen 

S 

σ 

j 

aus (27), die Differenzvektoren zwischen den 

analysierten Elementkonzentrationen und denen, die den berechneten Gemischen entsprechen und Werte 

χ der Fehlerfunktion (11). In der ersten Zeile „Max“ sind zusätzlich die oberen Schranken der 

Stoffkonzentrationen eingetragen, die sich prinzipiell aus den Elementkonzentrationen in der Probe 

ergeben. Für jeden Stoff wurde jedes Element der Konzentrationsmatrix mit der Elementkonzentration 

der Probe verglichen. Die Menge, die ein Stoff zu einem Element beiträgt, darf die Probenkonzentration 

nicht überschreiten und definiert somit die Maximalkonzentration des Stoffes in der Probe. Aufgrund 

der großen Ungenauigkeiten der Matrix können diese Konzentrationen aber nur als Orientierung dienen. 

In Abbildung 12 bis Abbildung 32 ist der Informationsgehalt von Tabelle 9 in eine grafische Form 

übertragen. In jeder Einzelgrafik ist nur die Konzentration eines Stoffes und deren Entwicklung beim 

44

Wegblenden von Eigenrichtungen angegeben. Die Unsicherheit des Ergebnisses wird durch Fehlerbalken 

angezeigt. Diese Werte sind allerdings mit einem Faktor 0.05 skaliert worden, da sich die Berechnung 

der Unsicherheit üblicherweise auf Eingabedaten von der Größenordnung 1 bezieht. Aufgrund der 

gewählten Elementskalierung liegen aber Konzentrationen bis unter 0.003 vor, so daß der Fehlerbalken 

zu groß werden würde. Eingezeichnet sind außerdem die maximal erlaubten Konzentrationen als 

horizontale Linie. 

Die Grafiken enthalten eine große Menge an Information, die nicht einfach interpretiert werden können. 

Es stellt sich die Frage, wieviele Eigenrichtungen mitgenommen werden sollten, um vertrauenswürdige 

Ergebnisse zu erhalten. Wenn zu viele Eigenrichtungen verwendet werden, fließt zu viel fehlerhafte 

Information in das Ergebnis ein, d.h. Fehler innerhalb der Daten beeinflussen das Ergebnis zu stark. 

Andererseits dürfen auch nicht zu wenige Eigenrichtungen verwendet werden, da dann wichtige 

Information ignoriert wird. Folglich muß ein Bereich gefunden werden, in dem genügend unsichere 

Information eliminiert wird, aber die wichtige Information enthalten bleibt. 

Klar ist, daß sich die Lösung durch die Elimination der ersten kleinsten Eigenrichtungen stark verändert. 

Auf der andere Seite bewirken Änderungen bei schon stark reduzierten Matrizen ebenfalls große 

Variationen. Das Minimum der Lösungsveränderung ist daher ein Kriterium für den im vorigen Absatz 

beschriebenen Bereich. Zur Bestimmung des Bereiches wird die Differenz zweier 

hintereinanderliegender Lösungsvektoren aus Tabelle 9 bestimmt. Die Vektorlänge dient als Maß für die 

Veränderung von der einen zur anderen Lösung. 

Das Ergebnis dieser Analyse ist in Abbildung 33 gezeigt. Man erkennt darin einen stabilen Bereich von 

12 bis 14 Eigenrichtungen, in dem das Minimum liegt, so daß eine Lösung in diesem Bereich gewählt 

wird. Um stabilere Aussagen zu erhalten, wird über diese Lösungen gemittelt. Die Varianz über diese 3 

Lösungen liefert ein Maß für die Zuverlässigkeit der jeweiligen Stoffkonzentration. 

Ein deutliches Kriterium für die richtige Anzahl der Eigenrichtungen liefert die Abbildung 34: Durch die 

Projektion in den Hauptkomponentenraum wird im Sinne des mittleren quadratischen Fehlers (11) die 

Lösung schlechter (fette Kurve), gleichzeitig fällt aber die Unsicherheit der Lösung (32), wie in der 

dünnen Kurve dargestellt. Durch das Wegblenden der ersten kleinen Eigenrichtungen sinkt die 

Unsicherheit sogar überproportional, ohne das der Lösungsfehler stark steigt. Daher würde man wegen 

der großen Unsicherheit die Eigenrichtung über 17 nicht mehr verwenden. 

Aus den obigen Betrachtungen erscheint es sinnvoll, die 12 bis 14 Eigenrichtungen zu verwenden. Über 

diese Zeilen wird gemittelt und deren Varianz bestimmt. Das Ergebnis ist in Tabelle 10 angegeben. 

45

EV\Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Fehler 

Max 16.67 19.50 47.00 78.00 42.50 4.33 3.77 0.39 0.37 3.33 18.00 10.87 15.62 5.22 1.10 2.33 1.35 6.50 16.20 17.05 6.00 

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13 1.02 

±1.20 ±2.06 ±1.04 ±0.44 ±0.61 ±1.93 ±4.08 ±1.75 ±3.93 ±6.33 ±4.62 ±3.23 ±1.74 ±3.79 ±6.28 ±1.17 ±0.07 ±10.96 ±4.86 ±4.77 1.93 

3 2.22 5.15 3.39 2.30 1.85 6.90 8.86 4.27 13.73 13.77 4.68 2.28 1.55 3.53 11.20 1.53 0.14 9.32 1.50 1.69 0.15 0.877 

±1.81 ±5.48 ±4.35 ±3.63 ±2.27 ±9.29 ±8.35 ±4.46 ±18.31 ±12.99 ±5.47 ±5.24 ±2.33 ±4.89 ±8.76 ±1.17 ±0.12 ±15.32 ±11.35 ±10.72 ±39 

4 3.04 6.19 4.69 3.75 2.71 10.44 8.31 5.31 18.77 4.30 5.42 3.63 2.39 3.09 -1.76 1.80 -0.03 9.59 4.10 4.13 0.12 0.707 

±3.20 ±.00 ±6.07 ±5.51 ±3.47 ±14.11 ±8.67 ±5.98 ±24.81 ±19.94 ±6.31 ±6.34 ±3.28 ±4.89 ±25.44 ±1.64 ±0.33 ±15.70 ±12.71 ±12.04 ±3.42 

5 4.11 8.04 6.00 4.60 3.53 9.69 13.22 8.51 12.96 6.80 5.61 2.54 1.65 2.38 -6.07 0.84 -0.24 11.80 1.78 2.01 0.25 0.665 

±5.75 ±10.90 ±8.51 ±6.77 ±5.09 ±14.25 ±23.02 ±15.12 ±33.33 ±22.64 ±6.43 ±7.63 ±4.38 ±5.60 ±31.41 ±4.17 ±0.96 ±18.57 ±15.79 ±14.76 ±4.37 

6 4.55 7.32 5.75 4.55 3.68 7.55 16.43 4.44 6.01 0.64 9.01 5.05 5.77 7.53 -1.64 7.37 1.24 5.10 -0.95 0.05 0.54 0.511 

±7.06 ±11.39 ±9.21 ±7.54 ±5.89 ±14.34 ±29.21 ±16.74 ±34.46 ±27.76 ±15.49 ±12.30 ±14.75 ±18.24 ±32.62 ±21.47 ±4.56 ±23.48 ±17.30 ±15.45 ±.43 

7 4.95 8.32 6.76 5.51 4.21 7.93 17.71 5.60 5.80 -3.29 7.22 3.39 4.16 8.06 1.21 5.45 0.96 6.24 -0.76 -0.06 0.64 0.495 

±7.68 ±13.74 ±12.05 ±10.58 ±7.18 ±14.59 ±30.73 ±19.07 ±34.51 ±41.45 ±21.14 ±18.10 ±19.64 ±18.63 ±39.59 ±26.45 ±5.12 ±25.17 ±17.37 ±15.47 ±.29 

8 4.66 8.33 6.81 5.73 4.28 7.92 13.60 12.03 3.57 -3.66 7.09 3.71 4.36 -0.18 3.50 7.83 1.82 5.53 0.93 1.37 0.76 0.441 

±7.79 ±14.26 ±12.57 ±11.28 ±7.63 ±15.28 ±32.54 ±37.94 ±35.47 ±41.84 ±22.08 ±19.15 ±20.83 ±39.85 ±41.41 ±33.41 ±7.89 ±25.81 ±18.64 ±16.76 ±0.45 

9 5.15 10.21 8.58 7.06 5.12 9.15 16.37 5.42 2.59 -3.47 7.24 3.30 3.81 -5.79 3.93 8.27 1.89 5.36 2.70 3.05 0.04 0.409 

±8.22 ±17.97 ±16.24 ±13.65 ±9.02 ±16.76 ±36.31 ±55.97 ±35.98 ±41.88 ±22.08 ±19.41 ±21.23 ±52.16 ±41.47 ±33.43 ±7.89 ±25.82 ±21.51 ±19.57 ±17.454 

10 5.91 12.03 11.58 10.12 6.35 12.62 12.05 4.16 -2.55 2.33 2.05 4.13 1.85 0.36 2.67 0.18 -1.14 -1.89 8.72 8.47 -0.02 0.268 

±10.15 ±21.33 ±22.39 ±20.55 ±11.74 ±25.25 ±37.72 ±56.38 ±40.58 ±45.04 ±24.64 ±21.73 ±21.24 ±56.20 ±41.48 ±37.32 ±11.39 ±40.79 ±31.37 ±29.03 ±9.86 

11 .78 12.00 11.53 10.08 6.32 12.57 12.02 4.05 -2.53 2.49 1.55 3.49 1.35 0.62 2.50 0.92 -0.49 -1.72 8.88 8.60 -0.03 0.267 

±11.14 ±21.40 ±22.43 ±20.62 ±11.75 ±25.41 ±37.72 ±56.38 ±40.61 ±45.89 ±35.20 ±37.23 ±31.74 ±58.59 ±42.21 ±56.74 ±37.25 ±40.87 ±33.52 ±30.89 ±0.54 

12 6.92 15.02 13.90 12.36 7.43 16.61 3.99 0.72 -4.46 2.23 2.11 4.03 2.14 1.29 2.69 1.08 0.70 3.57 4.10 4.21 -0.62 0.214 

±13.96 ±30.50 ±28.65 ±26.84 ±14.58 ±38.82 ±63.00 ±58.99 ±42.99 ±45.90 ±35.35 ±37.50 ±32.27 ±58.98 ±42.25 ±57.02 ±38.48 ±50.32 ±43.23 ±39.61 ±1.54 

13 6.52 14.55 13.46 11.88 7.49 15.95 4.07 -0.11 -4.10 2.18 2.46 3.59 1.76 0.71 2.56 0.38 0.13 4.06 3.85 3.92 4.71 0.205 

±14.31 ±30.51 ±28.69 ±26.85 ±15.98 ±38.84 ±63.08 ±59.40 ±42.99 ±45.91 ±35.90 ±37.81 ±32.52 ±59.06 ±42.25 ±57.02 ±38.64 ±50.33 ±43.24 ±39.61 ±110.43 

14 6.96 14.44 13.35 11.80 7.35 15.07 4.29 -0.24 -3.77 2.13 2.19 4.47 1.92 0.43 2.54 -0.82 2.11 4.10 3.72 3.76 4.21 0.203 

±26.38 ±30.71 ±29.00 ±27.30 ±15.98 ±47.04 ±63.28 ±59.40 ±43.86 ±45.91 ±37.45 ±55.30 ±33.70 ±59.41 ±42.26 ±70.72 ±100.13 ±50.59 ±43.25 ±39.68 ±15.45 

15 10.51 20.10 16.29 14.69 8.87 3.17 1.92 -0.73 -0.42 2.63 -0.07 4.38 2.42 0.84 1.87 2.37 -3.56 4.27 3.12 4.44 2.88 0.158 

±41.45 ±57.67 ±39.66 ±38.09 ±21.55 ±105.78 ±66.37 ±59.45 ±50.97 ±46.15 ±41.91 ±55.46 ±34.15 ±59.57 ±42.54 ±74.96 ±105.64 ±50.61 ±43.38 ±40.25 ±20.75 

16 0.92 24.22 18.61 15.83 10.13 0.78 1.20 -0.26 -0.05 2.53 4.48 2.42 2.66 1.50 1.71 0.46 -1.14 3.22 4.09 4.12 2.57 0.132 

±119.02 ±72.88 ±46.58 ±39.65 ±25.23 ±108.84 ±66.78 ±59.63 ±51.14 ±46.17 ±67.21 ±60.67 ±34.20 ±59.97 ±42.58 ±78.09 ±108.17 ±51.75 ±44.63 ±40.48 ±130.94 

17 -0.04 24.70 18.37 15.81 10.04 0.93 1.49 -0.28 -0.10 2.51 3.01 3.59 3.06 1.44 1.70 0.79 -1.29 3.48 4.10 3.87 2.81 0.131 

±147.90 ±81.28 ±52.44 ±40.04 ±27.24 ±109.85 ±71.87 ±59.71 ±51.34 ±46.24 ±138.55 ±111.76 ±47.12 ±60.26 ±42.60 ±82.69 ±110.36 ±57.41 ±44.63 ±46.47 ±135.45 

18 1.32 29.88 13.76 14.37 8.90 1.58 1.21 -0.22 -0.34 2.31 3.59 2.52 3.45 1.54 1.77 0.20 -0.64 2.80 2.80 6.03 3.19 0.129 

±155.10 ±242.34 ±219.35 ±80.96 ±61.07 ±114.95 ±72.42 ±59.72 ±52.56 ±47.40 ±140.27 ±122.15 ±50.13 ±60.31 ±42.69 ±86.66 ±111.51 ±63.02 ±74.51 ±103.97 ±140.43 

19 -0.28 27.99 13.49 15.88 9.84 1.82 1.64 -0.27 -0.34 2.44 1.47 -0.68 9.16 1.23 1.75 -0.66 -0.62 3.71 -1.98 11.57 2.84 0.126 

±167.24 ±274.73 ±222.10 ±130.64 ±89.73 ±114.98 ±74.20 ±59.72 ±52.63 ±48.67 ±176.26 ±198.02 ±300.12 ±61.70 ±42.69 ±96.12 ±114.33 ±76.14 ±248.34 ±299.95 ±148.34 

20 -2.69 24.88 27.08 8.84 7.78 1.49 1.43 0.34 -0.18 1.87 1.65 6.05 0.83 1.34 2.01 0.19 0.13 3.41 -18.84 28.32 4.08 0.113 

±174.97 ±275.13 ±322.96 ±256.37 ±126.55 ±115.37 ±74.33 ±60.42 ±52.64 ±53.24 ±181.12 ±279.70 ±422.36 ±61.84 ±43.09 ±101.13 ±115.93 ±78.22 ±384.20 ±402.88 ±150.31 

21 -4.56 21.97 19.30 21.79 9.23 0.88 1.81 0.31 -0.05 2.01 4.02 10.23 -6.51 1.29 2.06 0.92 -0.34 3.48 -22.25 30.66 3.76 0.111 

±201.89 ±316.76 ±529.54 ±743.27 ±148.89 ±119.97 ±77.04 ±60.43 ±53.12 ±53.79 ±221.83 ±359.37 ±578.90 ±61.90 ±43.17 ±108.44 ±118.62 ±78.32 ±425.93 ±422.10 ±155.34 

22 -4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84 -20.78 29.75 4.87 0.11 

±201.8 ±319.01 ±571.38 ±828.78 ±1111.9 ±119.98 ±81.60 ±61.05 ±53.54 ±53.80 ±223.11 ±370.89 ±590.25 ±61.99 ±43.77 ±108.49 +-118.64 +-78.83 +-427.38 +-422.77 ±156.18 

Tabelle 9: Berechnete Stoffkonzentrationen in Abhängigkeit von der Anzahl der verwendeten Eigenrichtungen EV (Stoffnummern laut Sortierung in Tabelle 2) 

In den jeweiligen Zeilen unter den Konzentrationsangaben sind die dazugehörigen Unsicherheiten 

S σ j 

aus (27) angegeben. Die Zeile „Max“ enthält die durch die 

Probenzusammensetzung determinierten maximal möglichen Stoffkonzentrationen. In der Fehlerspalte ist die Länge des Differenzvektors zwischen der analysierten 

Elementkonzentration und der Konzentration, die dem berechneten Gemisch entsprechen angegeben (Wert χ der Fehlerfunktion (11)). 

46

Variation der Lösung für jeweils einen Stoff 

80 

70 

Plot1 

Plot1 

78 

In Abbildung 12 bis Abbildung 32 sind die 

berechneten Stoffkonzentrationen (Ordinate) in 

Abhängigkeit von der Anzahl der verwendeten 

Eigenrichtungen (Abszisse) dargestellt. Die 

Fehlerbalken sind mit 0.05 skaliert. Die 

waagerechte Linien zeigt die maximal mögliche 

Stoffkonzentration. 

60 

50 

40 

30 

20 

10 

0 

-10 

-20 

0 5 10 15 20 25 

Abbildung 15: Stoff 4 (Teer) 

60 

Plot1 

Plot1 

42.5 

40 

20 

15 

Plot1 

Plot1 

16.7 

20 

0 

10 

5 

-20 

0 

-40 

-5 

-60 

0 5 10 15 20 25 

-10 

-15 

0 5 10 15 20 25 

Abbildung 16: Stoff 5 (Heizöl - leicht) 

Abbildung 12: Stoff 1 (Pflanzendetritus) 

20 

Plot1 

Plot1 

4.33 

45 

40 

Plot1 

Plot1 

19.5 

15 

10 

35 

30 

5 

25 

20 

0 

15 

-5 

10 

5 

-10 

0 5 10 15 20 25 

0 

0 5 10 15 20 25 

Abbildung 13: Stoff 2 (Diesel) 

50 

Plot1 

Plot1 

47 

Abbildung 17: Stoff 6 (Bremsabrieb I) 

20 

15 

Plot1 

Plot1 

3.77 

40 

30 

10 

20 

5 

10 

0 

0 

-10 

0 5 10 15 20 25 

-5 

0 5 10 15 20 25 

Abbildung 14: Stoff 3 (Reifen) 

Abbildung 18: Stoff 7 (Benzin) 

47

14 

30 

12 

Plot1 

Plot1 

0.39 

25 

Plot1 

Plot1 

10.87 

10 

20 

8 

15 

6 

10 

4 

5 

2 

0 

0 

-5 

-2 

-10 

-4 

0 5 10 15 20 25 

-15 

0 5 10 15 20 25 

Abbildung 19: Stoff 8 (Heizöl - schwer) 

Abbildung 23: Stoff 12 (Zementabrieb) 

30 

Plot1 

Plot1 

15.6 

25 

20 

Plot1 

Plot1 

0.37 

20 

10 

0 

15 

10 

-10 

5 

-20 

-30 

0 

-5 

-40 

0 5 10 15 20 25 

-10 

0 5 10 15 20 25 

Abbildung 24: Stoff 13 (Kalk) 

Abbildung 20: Stoff 9 (Bremsabrieb 2) 

15 

Plot1 

Plot1 

0.33 

10 

8 

Plot1 

Plot1 

5.22 

6 

10 

4 

2 

5 

0 

-2 

0 

-4 

-5 

-6 

-8 

-10 

0 5 10 15 20 25 

Abbildung 21: Stoff 10 (Reingasstaub Stahl) 

20 

Plot1 

Plot1 

18 

-10 

0 5 10 15 20 25 

Abbildung 25: Stoff 14 (Reingasstaub Zement) 

15 

12 

10 

Plot1 

Plot1 

1.1 

10 

8 

5 

6 

4 

0 

2 

0 

-5 

-2 

-10 

0 5 10 15 20 25 

-4 

-6 

Abbildung 22: Stoff 11 (Braunkohle) 

-8 

0 5 10 15 20 25 

Abbildung 26: Stoff 15 (Müllverbrennung) 

48

10 

60 

Plot1 

Plot1 

2.33 

Plot1 

Plot1 

17.5 

8 

50 

6 

40 

4 

30 

2 

20 

0 

10 

-2 

-4 

0 

-6 

0 5 10 15 20 25 

-10 

0 5 10 15 20 25 

Abbildung 27: Stoff 16 (Meersalz) 

Abbildung 31: Stoff 20 (kont. Oberkruste) 

8 

12 

6 

Plot1 

Plot1 

1.35 

10 

Plot1 

Plot1 

6 

4 

8 

2 

6 

0 

4 

-2 

2 

-4 

-6 

0 

-8 

-2 

-10 

0 5 10 15 20 25 

-4 

0 5 10 15 20 25 

Abbildung 28: Stoff 17 (Chlor) 

Abbildung 32: Stoff 21 (Schwefel) 

20 

Plot1 

Plot1 

6.5 

15 

10 

5 

0 

-5 

0 5 10 15 20 25 

Abbildung 29: Stoff 18 (Steinkohle) 

20 

Plot1 

Plot1 

16.2 

10 

0 

-10 

-20 

-30 

-40 

-50 

0 5 10 15 20 25 

Abbildung 30: Stoff 19 (Ziegelabrieb) 

49

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

2 4 6 8 10 12 14 16 18 20 22 

VerwendeteEigenrichtunge 

Abbildung 33: 

Veränderung der Lösungen von einer zur andere Eigenrichtung. Die Ziffer i auf Abszisse bedeutet i. 

Lösung - (i-1). Lösung. Um das Minimum besser grafisch besser erkennen zu können wurde statt 

euklidische Vektorlänge die absolute Koordinatensumme geplottet. 

1.2 

Plot1 

Plot2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0 5 10 15 20 25 

Verwendete Eigenrichtungen 

Abbildung 34: Fehler (fett) - Unsicherheit (normal). Beide Kurven sind auf das Maximum 1 skaliert worden. 

50

Mittelwerte für die Zeilen 12..14: 

Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Mittelwert 6.79934 14.6668 13.5704 12.0141 7.4208 15.8761 4.11537 0.122204 -4.11003 2.18088 2.25449 4.02844 1.93884 0.810573 2.5958 0.213829 0.977664 3.90902 3.88678 3.96187 2.7667 

Varianz 0.039478 0.062823 0.056152 0.059838 0.003280 0.39453 0.015447 0.17968 0.077570 0.001524 0.023100 0.128862 0.024354 0.126516 0.004770 0.615246 0.689595 0.057408 0.024301 0.035555 5.7783 


Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Mittelwert 6.54527 13.9997 13.0615 11.5316 7.14484 15.0505 6.09239 1.10349 -3.71379 2.25826 2.07902 3.89418 1.79237 0.762928 2.57175 0.389269 0.611545 2.50201 5.13413 5.12137 2.0676 

Varianz 0.223278 1.38212 0.818963 0.743323 0.230922 2.34061 11.7374 3.02353 0.529202 0.019103 0.109705 0.150726 0.082626 0.101697 0.005313 0.553773 0.919327 5.98208 4.6859 4.06002 5.8000 


Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Mittelwert 6.41771 13.6065 12.766 11.25 6.98634 14.5641 7.28373 1.71562 -3.48082 2.27349 2.07348 3.94089 1.80411 0.6815 2.59175 0.34774 0.260788 1.62442 5.85178 5.79147 1.6494 

Varianz 0.243706 1.72426 1.0045 0.911812 0.285221 2.81901 15.067 3.91764 0.640467 0.016211 0.087886 0.129307 0.066652 0.10788 0.005850 0.449917 1.22758 7.86633 5.80879 5.04415 5.3395 

Tabelle 10: Mittelwerte von Lösungen aus Tabelle 9 (Stoffnummer laut Sortierung in Tabelle 2). Angegeben ist außerdem die Varianz der Werte, über die gemittelt wurde. 

51

4.6 Erweiterte Untersuchung 

4.6.1 Bildung von Stoffgruppen 

Die Ergebnisse des vorigen Kapitels wurden Prof. Dr. Brumsack zur Begutachtung zur Verfügung 

gestellt. Die Stoffkonzentrationen die bestimmt wurden lagen in dem Rahmen, der erwartet wurde. 

Weiterhin wurde festgestellt, daß durch die numerischen Korrelationsuntersuchungen berechnete 

Sortierung der Stoffe und die gefundenen Stoffgruppen genau die bekannten chemischen 

Zusammenhänge widerspiegeln. 

Daraufhin wurde beschlossen, durch das Einbringen chemischer Zusammenhänge eine Modifikation der 

Untersuchung vorzunehmen. Diese betrifft die Stoffarten sowie die für die Berechnung verwendeten 

Elemente, auf die im nächsten Abschnitt eingegangen wird. Die Modifikationen lassen sich teilweise 

numerisch begründen. Zum besseren Verständnis der Modifikationen wird die neue Stoffsortierung in 

Tabelle 11 eingeführt. Die Korrelationsmatrix für diese Sortierung ist in Abbildung 35 zu sehen. 

Modifikationen: 

1. Stoff 20 (Bremsabrieb II) und 21 (Chlor) werden aus der Analyse entfernt. 

2. Stoff 3 (Rückstand Heizöl leicht) und Stoff 4 (Dieselfeststoffemission) werden zusammengefaßt 

3. Stoffe 10 & 11 (Zementabrieb & Kalk) sowie 17 & 18 (Ziegelabrieb und kont. Oberkruste) werden 

zusammengefaßt 

4. Stoff 15 & 16 (Reingasstaub Braun- und Steinkohle) werden zusammengefaßt 

zu 1: Bremsabrieb II ergab numerisch eine negative Konzentration und wird auf Konzentration 0 gesetzt 

bzw. fällt aus der Analyse raus. Chlor wurde von den Geochemikern nur aus numerischen Gründen 

eingefügt und wird nicht beachtet. 

zu 2: Aufgrund der chemischen Ähnlichkeit, die auch in der Korrelationsmatrix zu erkennen ist, werden 

die Stoffe nicht separiert. Stoff 2 (Reifenabrieb) könnte wie in der Abbildung 35 ersichtlich mit 

einbezogen werden, bleibt aber aufgrund seiner Wichtigkeit als Schadstoff separiert. 

zu 3: Chemisch und durch ihre Korrelationen gut begründet. 

zu 4: Die Stoffe könnten aufgrund ihrer Korrelation getrennt bestimmt werden, dieses ist aber praktisch 

wenig interessant. 

Bei der Zusammenfassung zweier Stoffe wird davon ausgegangen, daß sie im Verhältnis 1:1 in jeder 

Probe vorliegen. D.h. die Konzentrationsmatrix wird so reduziert, daß die entsprechenden Spalten in der 

Konzentrationsmatrix durch den Mittelwert der Spalten ersetzt werden. 

52

Stoffnr. 

Stoffnr. in 

alter 

Sortierung 

Stoffnr. incl. 

Zusammenfassung 

Stoff 

1 4 1 Teer 

2 3 2 Reifenabrieb 

3 5 3 Rückstand Heizöl leicht 

4 2 Dieselfeststoffemission 

5 6 4 Bremsabrieb I 

6 1 5 Pflanzendetritus 

7 7 6 Benzinfeststoffemission 

8 8 7 Rückstand Heizöl schwer 

9 10 8 Reingasstaub Stahl 

10 12 9 Zementabrieb 

11 13 Kalk 

12 14 10 Reingasstaub Zement 

13 15 11 Reingasstaub Müllverbrennung 

14 16 12 Meersalz 

15 11 13 Reingasstaub Braunkohle 

16 18 Reingasstaub Steinkohle 

17 19 14 Ziegelabrieb 

18 20 Kontinentale Oberkruste 

19 21 15 Schwefel 

20 9 16 Bremsabrieb II 

21 17 17 Chlor 

Tabelle 11: Neue Stoffsortierung - Die Stoffgruppen sind durch dicke Linie separiert. Die Stoffe, die 

kombiniert werden sollen, sind grau unterlegt. 


20 

15 

10 

5 

0 

0 5 10 15 20 

Abbildung 35: Stoffkorrelationen bzgl. der Sortierung in Tabelle 11 

53

Man erkennt in Abbildung 36, daß durch die Stoffzusammenfassung gut separierbare 

Stoffe/Stoffgruppen entstehen, für die die Konzentrationen berechnet werden (Tabelle 12). Bei dieser 

Untersuchung ist nicht eindeutig, wieviele Eigenrichtungen für die Lösungsbestimmung verwendet 

werden sollen, da die Lösungen für einige Stoffe teilweise stark mit der Anzahl der Eigenrichtungen 

variieren. Die Stabilitätsuntersuchung (analog Abschnitt 4.5) liefert ein Minimum der Lösungsvariation 

im Bereich 8-10 Eigenrichtungen. Dieses würde allerdings eine sehr starke Informationsreduktion 

bedeuten. Es ergeben sich auch sehr unterschiedliche Lösungen bzgl. der vorigen Untersuchung. Daher 

werden auch für diese Untersuchung wieder die Eigenrichtungen bis 12 und 14 verwendet. 

Die Mittelwertbildung über die Eigenrichtungen (Tabelle 13) ergibt ähnliche Ergebnisse wie die 

vorherige Untersuchung (Tabelle 10). Allerdings unterscheidet sich die Konzentration des Stoffes 4 

(Bremsabrieb I) sehr. Die Ursache liegt in dem Sprung dieser Konzentration von 13.7 auf 4.06 beim 

Übergang von der 11. zu 12. Eigenrichtung. Bei der anderen Untersuchung (Tabelle 9) trat ein Sprung 

von 15.07 auf 3.17 beim Übergang von der 14. zur 15. Eigenrichtung auf, so daß die Anzahl der 

Eigenrichtungen der beiden Analysen als nicht kompatibel anzusehen ist. Es ist daher nicht klar welches 

Ergebnis besser ist. Leider tritt diese Unsicherheit bei einem so wichtigen Schadstoffverursacher wie 

dem Autoverkehr auf. 

16 


14 

12 

10 

8 

6 

4 

2 

0 

0 2 4 6 8 10 12 14 16 

Abbildung 36: Stoffkorrelationen der reduzierten Stoffmenge 

Die Stoffnummern entsprechen denen in Spalte 3 der Tabelle 11. 

54

EV\Stoffnummer 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Summe Fehler 

2 0.47 1.43 4.76 4.23 1.58 7.08 3.40 14.19 6.70 6.18 12.52 2.28 22.87 12.09 0.22 100 1.36 

±0.01 ±0.03 ±0.10 ±0.09 ±0.03 ±0.15 ±0.07 ±0.31 ±0.15 ±0.14 ±0.27 ±0.05 ±0.50 ±0.26 ±0.01 2.19 

3 0.65 1.73 5.55 4.75 1.41 8.24 3.87 18.10 4.59 5.16 17.80 1.75 18.65 7.54 0.21 100 1.33 

±0.03 ±0.06 ±0.17 ±0.13 ±0.04 ±0.25 ±0.11 ±0.69 ±0.31 ±0.18 ±0.86 ±0.08 ±0.72 ±0.66 ±0.01 4.30 

4 3.05 4.59 12.16 14.05 2.75 14.43 10.69 24.72 2.87 -0.64 -4.43 -0.95 15.75 0.66 0.29 100 1.08 

±0.15 ±0.20 ±0.49 ±0.63 ±0.10 ±0.53 ±0.47 ±0.93 ±0.32 ±0.34 ±1.39 ±0.16 ±0.72 ±0.74 ±0.02 7.18 

5 5.15 7.10 18.85 7.67 4.22 27.35 10.51 -1.27 1.76 4.73 1.96 2.80 10.84 -2.64 0.97 100 0.704 

±0.26 ±0.34 ±0.87 ±0.63 ±0.19 ±1.28 ±0.52 ±1.44 ±0.32 ±0.46 ±1.41 ±0.27 ±0.72 ±0.77 ±0.05 9.53 

6 5.23 6.64 15.69 16.91 3.66 21.89 -1.53 0.66 6.50 6.91 1.55 11.37 2.93 1.44 0.15 100 0.568 

±0.30 ±0.36 ±0.87 ±1.39 ±0.19 ±1.28 ±1.26 ±1.45 ±0.65 ±0.59 ±1.41 ±1.10 ±1.02 ±0.85 ±0.09 12.81 

7 5.31 6.39 14.12 19.57 3.23 14.92 7.48 -2.29 6.84 1.53 4.30 12.49 2.61 3.03 0.47 100 0.511 

±0.32 ±0.37 ±0.87 ±1.67 ±0.19 ±1.52 ±1.94 ±1.56 ±0.69 ±1.00 ±1.51 ±1.23 ±1.03 ±0.91 ±0.12 14.93 

8 5.55 6.64 14.28 21.15 3.23 14.59 7.45 -2.75 5.84 2.83 4.62 9.88 2.09 4.12 0.47 100 0.508 

±0.37 ±0.41 ±0.88 ±1.97 ±0.19 ±1.53 ±1.94 ±1.59 ±0.94 ±1.31 ±1.52 ±2.06 ±1.09 ±1.15 ±0.12 17.07 

9 5.06 5.95 12.80 19.98 3.14 13.73 9.22 -1.96 5.77 6.63 3.81 10.38 1.71 2.99 0.78 100 0.501 

±0.39 ±0.47 ±1.03 ±1.97 ±0.19 ±1.56 ±2.23 ±1.62 ±0.94 ±2.38 ±1.55 ±2.15 ±1.13 ±1.26 ±0.21 19.08 

10 5.08 6.11 13.72 14.63 2.63 15.65 10.75 0.86 4.08 5.38 2.93 10.58 -3.31 10.50 0.42 100 0.477 

±0.40 ±0.48 ±1.09 ±2.27 ±0.22 ±1.67 ±2.32 ±1.76 ±1.00 ±2.38 ±1.57 ±2.18 ±1.85 ±2.40 ±0.22 21.81 

11 4.96 5.89 13.46 13.70 3.29 15.95 10.98 1.01 9.73 4.97 3.18 7.59 -4.58 9.90 -0.03 100 0.471 

±0.40 ±0.49 ±1.09 ±2.29 ±0.44 ±1.69 ±2.34 ±1.76 ±3.30 ±2.39 ±1.58 ±2.61 ±2.04 ±2.41 ±0.30 25.13 

12 9.82 11.36 24.84 4.06 4.39 1.03 1.59 2.72 6.05 3.12 2.08 2.61 0.97 5.26 20.11 100 0.249 

±0.92 ±1.03 ±2.19 ±2.41 ±0.53 ±2.29 ±2.38 ±1.77 ±3.31 ±2.41 ±1.58 ±2.61 ±2.04 ±2.42 ±2.69 30.58 

13 12.65 14.45 30.31 2.06 5.59 -3.57 1.45 3.08 6.20 4.99 1.95 3.30 1.15 4.45 11.93 100 0.219 

±1.28 ±1.42 ±2.77 ±2.50 ±0.65 ±2.74 ±2.38 ±1.78 ±3.31 ±2.47 ±1.58 ±2.61 ±2.04 ±2.44 ±4.02 33.99 

14 14.73 16.14 21.93 1.46 19.59 -2.10 0.30 3.19 2.67 2.86 2.03 2.54 2.56 4.20 7.91 100 0.176 

±1.91 ±1.91 ±3.56 ±2.51 ±6.09 ±2.74 ±2.38 ±1.78 ±3.38 ±2.49 ±1.58 ±2.62 ±2.04 ±2.44 ±4.04 41.47 

15 26.93 32.82 9.99 0.09 2.17 0.94 0.29 3.42 3.93 2.30 1.81 1.67 4.38 3.03 6.24 100 0.135 

±94 ±7.63 ±6.16 ±2.58 ±7.70 ±2.96 ±2.39 ±1.79 ±3.43 ±2.49 ±1.58 ±2.62 ±2.09 ±2.46 ±4.04 55.87 

16 49.52 11.75 10.72 -0.08 0.07 1.79 0.03 3.66 3.62 1.90 1.94 1.42 4.99 2.97 5.71 100 0.128 

±25.53 ±21.68 ±6.16 ±2.60 ±7.87 ±3.13 ±2.39 ±1.82 ±3.44 ±2.52 ±1.59 ±2.62 ±2.15 ±2.46 ±4.04 90.01 

Tabelle 12: Lösung für die Stoffgruppenbildung. Die Stoffnummern entsprechen denen in Spalte 3 der 

Tabelle 11. Im umrandeten Bereich findet ein krassen Sprung der Lösung von der 12. zum 11 Eigenrichtung 

statt. 

Stoff -> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

Mittelwert 12.4 14.0 25.7 2.5 9.9 -1.5 1.1 3.0 5.0 3.7 2.0 2.8 1.5 4.6 13.3 

Varianz 4.1 3.9 12.1 1.2 47.9 3.7 0.3 0.0 2.7 0.9 0.0 0.1 0.5 0.2 25.8 

Stoff/-gruppen in 

alter Sortierung 

Lösung: ohne 

Stoffreduktion 

(EV 12-14) 

1 2 3+4 5 6 7 8 9 10+ 

11 

12 13 14 15+ 

16 

12.0 13.6 22.1 15.9 6.8 4.1 0.1 2.2 5.9 0.8 2.6 0.2 6.1 7.9 2.7 

17+ 

18 

19 

Tabelle 13: Gemittelte Lösung über Eigenrichtung 12 bis 14. Die Stoffnummern entsprechen denen in Spalte 3 

der Tabelle 11. Angegeben ist außerdem die Lösung die ohne die Stoffgruppenbildung sich ergab. Die 

Konzentrationen für zusammengefaßte Stoffe wurden dabei summiert. 

55

4.6.2 Bestimmung der Elementgruppen 

Die Elementgruppen lassen läßt sich analog den Stoffgruppen durch die Korrelation der Zeilen der 

Konzentrationsmatrix untersuchen. Durch die Sortierung der Elemente analog Abschnitt 4.4.1 ergibt 

sich mit Tabelle 14 die Kreuzkorrelationsmatrix in Abbildung 37. In der Grafik sind die 

Elementgruppen, also die Elemente, die häufig gemeinsam in den Stoffen des Staubgemisches 

vorkommen, zu erkennen. Wie bei der Stoffgruppenuntersuchung spiegeln hier die numerisch 

gewonnenen Untersuchungsergebnisse die bekannten chemischen Zusammenhänge wieder: Z. B. folgen 

die drei Erdalkalimetalle Sr, Mg, Ca aufeinander. Hg, Cd und Ag als edle Metalle bilden ebenso ein 

Gruppe wie Na und Cl (Kochsalz). 

Matrix with Scaling =1 

40 

35 

30 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 40 

Abbildung 37: Skalarprodukte der Elemente mit den Elementnummern nach Tabelle 14. 

Man erkennt Gruppen stark korrelierter Elementen, wie z.B. Na (41) mit Cl (42) und Co (37), Ni (38) mit V 

(39). 

56

Elementgruppen 

Nr. 

Originale 

Nummer 

Element 

1 37 Ti 

2 2 Al 

3 33 Si 

4 19 La 

5 31 Sc 

6 36 Th 

7 39 U 

8 5 Be 

9 3 As 

10 32 Se 

11 26 P 

12 35 Sr 

13 20 Mg 

14 8 Ca 

15 18 K 

16 38 Tl 

17 28 Rb 

18 27 Pb 

19 41 Zn 

20 17 Hg 

21 9 Cd 

22 1 Ag 

23 6 Bi 

24 34 Sn 

25 16 Ga 

26 14 F 

27 24 Nb 

28 21 Mn 

29 15 Fe 

30 12 Cr 

31 22 Mo 

32 30 Sb 

33 13 Cu 

34 42 Zr 

35 4 Ba 

36 7 OC+EC 

37 11 Co 

38 25 Ni 

39 40 V 

40 29 S 

41 23 Na 

42 10 Cl 

Tabelle 14: Sortierung der Elemente nach ihren Korrelationen zueinander. 

Elemente, die von den Geochemikern als wichtig für die Stoffbestimmung eingeordnet wurden, sind grau 

unterlegt. Elemente, die in der Kreuzkorrelationsmatrix in Abbildung 37, eine Gruppe bilden, sind durch dicke 

Linien getrennt. 

57

4.6.3 Reduktion der Elementanzahl 

Die Konzentrationsbestimmung der 41 chemischen Elemente in der Staubprobe stellt einen großen 

chemischen Analysenaufwand dar. Deshalb soll im folgenden versucht werden, ob auch mit der 

Kenntnis von weniger Elementkonzentrationen die Stoffe ausreichend genau zu bestimmen sind. Dieser 

Versuch könnte Erfolg haben, da viele Elemente in Gruppen auftreten - wie im vorigen Abschnitt 

gezeigt - und es daher eventuell ausreicht, nur ein Element einer Gruppe zu bestimmen. Außerdem 

könnten einige Elemente generell nur einen geringen Einfluß auf die Konzentrationsbestimmung haben. 

Es stellt sich jetzt die Frage, welche Elemente wichtig sind und auf welche verzichtet werden kann. 

Aus dem chemischen Wissen ist bekannt, daß einige Elemente besonders wichtig für die Identifizierung 

einiger Stoffe sind. Eine pragmatisches Auswahlkriterium für eine Element ist außerdem, wie einfach 

und genau es chemisch zu bestimmen ist. Die so ausgewählten Elemente sind in Tabelle 16 markiert. 

Man kann aber auch rein mathematische Argumente für die Elementauswahl finden. Es wurde die 

Elementzusammensetzung, die sich aus den berechneten Stoffkonzentrationen ergibt, mit der 

analysierten Elementzusammensetzung 32 in der Probe verglichen. In Abbildung 38 ist der prozentuale 

Fehler der berechneten Elementkonzentrationen grafisch dargestellt. Man erkennt, daß nach der PCA- 

Reduktion einige Elemente extrem schlecht getroffen werden. Speziell für Zr (42), Sb (30), Mo (22) und 

Cu (13) trifft dies zu. Ein Grund dafür ist das geringe Gewicht im Least-Square-Fit, wie man an den 

umskalierten Elementkonzentrationen in Tabelle 3 erkennen kann. Viele andere Elementkonzentrationen 

werden auch sehr schlecht reproduziert. Da diese Elemente nicht richtig bestimmt werden, könnte man 

sie von der Untersuchung ausschließen. Im mathematischen Sinne würde man dadurch eine bessere 

Lösung erhalten (Fehlerfunktion). Leider entfernt man dabei aber auch chemisch wichtige Elemente, so 

daß dieser Weg nicht eingeschlagen wird. 

Eine andere Möglichkeit ergibt sich, wenn man eine Lösung (Stoffkonzentrationsvektor) als „richtig“ 

ansieht und versucht, eine ähnliche Lösung mit weniger Elementen zu reproduzieren. Die 

Referenzlösung ist das Ergebnis, das sich unter der Verwendung aller Elemente ergibt. Diese Lösung 

und alle folgenden Lösungen werden dabei durch Reduktion und Mittelung von 12 bis 14 

Eigenrichtungen bestimmt. 

32 Diese Analyse beruht auf der kompletten Analyse aller 21 Stoffe für die Reduktion auf die Eigenrichtungen 12..14 wie 

oben durchgeführt. 

58

1200 

500 

A lle E R . 

20. ER. 

13. ER. 

400 

Prozentualer Fehler 

300 

200 

100 

0 

-100 

-200 

0 5 10 15 20 25 30 35 40 45 

Elementindex 

Abbildung 38: Prozentualer Fehler in den Elementkonzentrationen für verschiedene Anzahl von 

Eigenrichtungen. Die Elementindizes liegen in alphabetische Originalsortierung vor. 

Dünne Plots: Alle und bis zur 20. Eigenrichtung, dicker Plot bis zur 13. Eigenrichtung 

In einem ersten Schritt wird immer nur ein Element eliminiert und die Lösung verglichen. In Tabelle 38 

im Anhang wird die prozentuale Änderung der Stoffkonzentrationen beim Fortlassen eines Elementes 

gezeigt. Man kann an dieser Tabelle einige Zusammenhänge erkennen. Betrachten wir z.B. zum Beispiel 

Spalte 6 und 7 / Zeile 27 (Bremsabrieb I und Benzin / Blei). Benzin ist der Stoff mit der höchsten 

Bleikonzentration, daher wird beim Nichtbeachten der Bleikonzentration die Benzinkonzentration nicht 

mehr eingeschränkt und steigt um 133 % auf Kosten von Bremsabrieb I mit sehr wenig Bleigehalt. 

Als Kriterium für die Ähnlichkeit von Lösungen wurde die Länge des Differenzvektors zwischen der 

Lösung mit allen Elementen und der Lösung mit weniger Elementen verwendet. Die Elemente wurden 

nach dem Einfluß auf die Lösung sortiert (Tabelle 15). Man erkennt als empfindlichstes „Element“ 

OC+EC, was aufgrund des großen Gewichtes in der Fehlerfunktion zu erwarten war. Dann folgen einige 

Elemente die nur ein kleines Gewicht im Fit haben. Im oberen Teil der Tabelle häufen sich tatsächlich 

die chemisch relevanten Elemente, aber auch in der Mitte und am Ende treten einige auf, so daß sich ein 

nicht einheitliches Bild ergibt. 

Nach dieser Sortierung wurden die Elemente sukzessiv vom unteren Teil der Tabelle her eliminiert. An 

dem Ergebnis in der Tabelle 39 im Anhang erkennt man, daß sich bei der Verwendung von nur 25 

Elementen noch ähnliche Ergebnisse erzielen lassen. 

Das chemische Wissen über die Bedeutung der Elemente soll jetzt verwendet werden. Dazu wird die 

Tabelle 16 in Tabelle 17 umsortiert, so daß die chemisch wichtigen Elemente zuletzt entfernt werden, 

indem diese Elemente an die Spitze der Tabelle verschoben werden. Die Sortierordnung der relevanten 

und nicht relevanten untereinander wird dabei beibehalten. Man erkennt durch Vergleich von Tabelle 39 

mit Tabelle 40 an dem Abstand zur Lösung mit allen Elementen, daß diese Methode bei gleich großer 

59

Elementanzahl ab dem 5. entfernten Elementen besser abschneidet. Z.B. ergibt sich für 20 Elemente eine 

Abweichung von 19.07 bei der ersten Sortierung gegenüber 9.11 bei der zweiten Sortierung. D.h. bei 

Entfernen von Elementen nach der zweiten Sortierung würde man weniger Elemente benötigen um 

Ergebnisse gleicher Sicherheit zu erhalten. 

Laufnum 

mer 

Elementnum 

mer 

weggelassen 

es Element 

Abstand. zur 

Lsg. mit 

allen 

Elementen 

umskalierter 

Input 

(Wichtung in 

der 

Fehlerfuktion) 

1 7 OC+EC 38.2387 0.604 

2 27 Pb 7.61248 0.037 

3 8 As 6.77847 0.108 

4 29 S 6.40033 0.060 

5 10 Cl 4.61565 0.013 

6 28 Rb 4.15355 0.052 

7 23 Na 2.61326 0.025 

8 20 Mg 2.58752 0.174 

9 5 Be 2.56652 0.200 

10 13 Cu 2.29328 0.015 

11 14 F 2.28528 0.180 

12 30 Sb 2.12957 0.003 

13 15 Fe 1.93825 0.045 

14 4 Ba 1.90667 0.035 

15 33 Si 1.69713 0.170 

16 12 Ga 1.6758 0.071 

17 11 Co 1.51231 0.070 

18 22 Mo 1.4707 0.006 

19 42 Zr 1.39897 0.028 

20 39 U 1.36822 0.065 

21 38 Tl 1.24318 0.068 

22 32 Se 1.24266 0.208 

23 26 P 1.22951 0.06 

24 2 Al 0.91147 0.183 

25 18 K 0.818325 0.161 

26 35 Sr 0.679311 0.163 

27 3 As 0.673266 0.164 

28 40 V 0.555189 0.003 

29 31 Sc 0.552989 0.092 

30 36 Th 0.532147 0.088 

31 6 Bi 0.501837 0.012 

32 21 Mn 0.491995 0.033 

33 19 La 0.449231 0.161 

34 17 Hg 0.434589 0.077 

35 25 Ni 0.410324 0.015 

36 24 Nb 0.386594 0.086 

37 1 Ag 0.369962 0.023 

38 34 Sn 0.319443 0.011 

39 9 Cd 0.282414 0.030 

40 37 Ti 0.263967 0.135 

41 41 Zn 0.164343 0.058 

42 16 Zr 0.0623055 0.113 

Tabelle 15: Elemente nach dem Einfluß auf die Lösungen sortiert. 

Die chemisch relevanten Elemente sind hier grau unterlegt. In der vierten Spalte ist die Veränderung 

der berechneten Stoffkonzentrationen, die sich bei Fortlassen des entsprechenden Elementes ergibt, 

dargestellt. 

60

Laufnum 

mer 

Elementnum 

mer 

weggelassen 

es Element 

Abstand. zur 

Lsg. mit allen 

Elementen 

1 7 OC+EC keine Angabe 

2 27 Pb keine Angabe 

3 8 As keine Angabe 

4 29 S keine Angabe 

5 10 Cl 291.48 

6 23 Na 303.11 

7 20 Mg 230.67 

8 5 Be 39.26 

9 13 Cu 87.32 

10 15 Fe 33.75 

11 11 Co 37.04 

12 38 Tl 21.48 

12 26 P 16.93 

14 2 Al 16.80 

15 18 K 10.92 

16 3 As 10.33 

17 40 V 9.09 

18 34 Sn 10.18 

19 9 Cd 10.80 

20 41 Zn 9.11 

21 28 Rb 6.61 

22 14 F 8.51 

23 30 Sb 8.24 

24 4 Ba 6.36 

25 33 Si 5.26 

26 12 Ga 4.55 

27 22 Mo 4.24 

28 42 Zr 4.29 

29 39 U 3.65 

30 32 Se 3.50 

31 35 Sr 2.41 

32 31 Sc 2.20 

33 36 Th 1.68 

34 6 Bi 1.39 

35 21 Mn 0.88 

36 19 La 0.96 

37 17 Hg 0.72 

38 25 Ni 0.92 

39 24 Nb 0.87 

40 1 Ag 0.58 

41 37 Ti 0.25 

42 16 Zr 0.06 

Tabelle 16: Elemente nach dem Einfluß auf die Lösungen und chemischer Relevanz sortiert 

Die chemisch relevanten Elemente sind hier grau unterlegt. In der vierten Spalte ist die Veränderung 

der berechneten Stoffkonzentrationen dargestellt, die sich ergeben, wenn aller Elemente die unterhalb 

einer Zeile einschließlich der jeweiligen Zeile stehen fortgelassen werden. 

61

4.7 Ergebnisse und Diskussion 

Hier ist das Ergebnis für die Stoffgruppenzusammenfassung ohne Elementreduktion angegeben: 

Stoff Anteil in % 

Rückstand Heizöl leicht + Dieselfeststoffemission 25.7 

Reifenabrieb 14.0 

Teer 12.4 

Pflanzendetritus 9.9 

Zementabrieb + Kalk 5.0 

Ziegelabrieb + Kontinentale Oberkruste 4.6 

Reingasstaub Zement 3.7 

Reingasstaub Stahl 3.0 

Meersalz 2.8 

Bremsabrieb I 2.5 

Reingasstaub Müllverbrennung 2.0 

Reingasstaub Braunkohle + Steinkohle 1.5 

Rückstand Heizöl schwer 1.1 

Benzinfeststoffemission -1.5 (?) 

Tabelle 17: Endergebnis - bestimmte Soffkonzentrationen 

Der Großteil der Stäube wird durch die Diesel- bzw. Heizölverbrennung in die Luft gebracht. Speziell 

der hohe Anteil des Reifenabriebes wurde erwartet. Inclusive dem Teeranteil trägt der Autoverkehr 

somit mit rund 50% zur gesamten Luftverschmutzung durch Stäube bei. 

Die meisten Konzentrationen liegen im dem Rahmen, der von den Geochemikern erwartet wurde. Die 

Benzinfeststoffemissionen stimmen allerdings nicht überein und sind auch sensibel bzgl. der 

Analysenmethode. In der Analyse ohne die Stoffkomposition ergaben sich Konzentrationen um 5%. 

Ebenso verhält es sich mit dem Bremsabrieb (andere Analyse 15.9%). 

Der chemische Analysenaufwand kann drastisch durch eine Reduktion der Elementbasis reduziert 

werden. Durch die Auswahl von rund 50% der wichtigen Elementkonzentrationen, lassen sich Resultate 

erreichen, die sich nicht wesentlich von denen mit großer Elementbasis bestimmen. Dieses ist eine sehr 

wichtiges und für die Praxis auswertbares Ergebnis. 

In nächster Zeit stellt Prof. Dr. Brumsack eine umfangreichere und wesentlich präzisere Datenbasis zur 

Verfügung, mit der diese Untersuchung wiederholt werden soll. 

62

5 Detektion der Milankovitchzyklen im Kirchroder Bohrkern 


Während der Unterkreide waren weite Gebiete des heutigen Norddeutschlands von Meer, das nach 

Norden hin in direkter Verbindung zum Arktischen Becken stand, bedeckt. In dieser Zeit sind große 

Mengen von Tonmergelsedimenten, in einer Wassertiefe von mehreren hundert Metern, mit hohen 

Sedimentationsraten von ca. 12 m pro 100.000 Jahre abgelagert worden. In diesen Ablagerungen 

wurden die Inhaltsstoffe des Meerwassers eingeschlossen und haben den damals herrschenden 

chemischen Zustand des Meeres bis heute konserviert. 

Durch aufwendige Tiefenbohrungen kann dieses „Geschichtsbuch der Urzeit“ geborgen und nach einer 

chemischen und physikalischen Analyse „gelesen“ werden. Die hier durchgeführte Untersuchung bezieht 

sich auf einen Bohrkern, der in Kirchrode bei Hannover gewonnen wurde. Er stammt aus dem Ober-Alb 

und wurde von V.E. Rachold [25] chemisch analysiert. Der Kern wurde im Abstand von 0.5 m beprobt 

und der Gehalt an 26 chemischen Elementen und Stoffen bestimmt. 

Die numerische Untersuchung der Analyseergebnisse konzentriert sich auf die sogenannten 

Milankovitch-Zyklen. Der Geophysiker M. Milankovitch konnte nachweisen, daß sich die Form der 

Umlaufbahn, die die Erde um die Sonne beschreibt, zyklisch ändert ([23], [24]). Er fand dabei 

ausgeprägte Perioden von 19, 23, 41, 100 und 400 ka (kilo-Jahre), die der Variation der Präzession, der 

Neigung der Erdachse, der Exzentrizität sowie der Stellung der Erdbahn im Raum und deren 

Überlagerungsfrequenzen entsprechen. Diese Zyklen bewirken eine Schwankung der Sonneneinstrahlung 

über die Jahrtausende. Die daraus resultierende globale Klimaänderung sollten sich auch in den 

Sedimentschichten nachweisen lassen. 

Ein Teil der Arbeit von V.E. Rachold beschäftigt sich mit der Identifizierung dieser Zyklen im 

Hannoverschen Bohrkern. Ein Problem der Untersuchung ist die Transformation der Längenskala 

(Bohrtiefe) in die Zeitskala, da nicht genau bekannt ist, wie groß die Sedimentationsraten zu den 

Zeitpunkten waren und wie gleichmäßig der Schichtaufbau erfolgte. Allerdings befindet sich in einer 

Bohrtiefe von -40 m bis -100 m eine Abschnitt mit relativ gleichmäßiger Zusammensetzung (ohne 

Trend). Da die Zyklen nur in einem stabilen Sedimentationsraum erkennbar sind, beschränkt sich die 

Untersuchung daher auf diesen Abschnitt. Die Zeitskaleneichung findet über den in den Zeitreihen sehr 

ausgeprägten Zyklus von rund 12.5 m statt, von dem angenommen wird, daß dieser dem 100-Jahres- 

Milankovitch-Zyklus entspricht. Auf dieser Basis wurden in der Arbeit von V.E. Rachold die anderen 

Zyklen auf 46 ka und 24 ka bestimmt. Durch eine feinere Beprobung eines speziellen Abschnittes mit 

Schrittweiten von 0.1 m ist ein 38 ka und ein 19 ka Zyklus bestimmt worden. Der 400 ka Zyklus wurde 

nicht gefunden. Von V.E. Rachold wurde die Frequenzanalyse mit einer einfachen Fast-Fourier- 

Transformation durchgeführt. 

63

In der hier durchgeführten Untersuchung sollen die Frequenzen mit erweiterten Methoden genauer 

bestimmt werden. Weiterhin war es geplant, die Meßdaten an den Milankovitch-Zyklen zeitlich zu 

eichen. Dieses ist im Prinzip möglich, da die Zyklen keine exakten Konstanten sind, sondern über die 

Jahrtausende, bedingt durch die Komplexität unseres Sonnensystems, schwanken. Falls die genaue 

Variation der Sonneneinstrahlung für die vergangenen Zeiten bekannt wäre, könnte durch einen 

Vergleich mit den gemessenen Werten ein genaue Einordnung des Zeitabschnittes erfolgen. Dieses 

könnte grob, aufgrund der Quasiperiodizität durch einen Frequenzvergleich, oder genauer durch eine 

direkte Korrelation der Phase erfolgen. Die Milankovitch-Zyklen lassen sich aber für die Vergangenheit 

nicht einfach bestimmen. Von J. Laskar ([26] [7]), wurde eine Simulation der Erddynamik entwickelt 

mit der sich die Schwankung der Erdbahnparameter zurückrechnen lassen. Es stellte sich aber heraus, 

daß das Programm „nur“ eine Extrapolation 20 Millionen Jahre zurück in die Vergangenheit erlaubt. Es 

läßt sich daher nicht auf die Kirchrode-Zeitreihen (100 Millionen Jahre alt) anwenden. Für spätere 

Untersuchungen sollte geprüft werden, ob eine Erweiterung des Programmes möglich ist und wie 

zuverlässig die produzierten Daten dann sind. Für eine Simulation 20 Ma zurück hat sich gezeigt, daß 

die Variation des nicht genau bestimmbaren Erdparameters - die Eisbedeckung an den Polen - eine 

Phasenverschiebung um fast 180 0 bewirkt, wogegen die Frequenzen sich nur leicht verschieben. 

5.2 Sichtung des Datenbestandes 

Die 26 Zeitreihen wurden zuerst nach visuellen Ähnlichkeiten grob sortiert. Es wurde dabei auf das 

Vorhandensein des stationären Intervalles (-40 bis -100 m Tiefe) geachtet und ob sich Strukturen 

(Zyklen) erkennen lassen. 

Die Zeitreihen ließen sich in folgende verschiedene Formationen einordnen: 

1. Gruppe: viel Struktur mit stationärem Intervall 

Rb, K 2 O, Ti 2 0, Cr, V, Al 2 O 3 Si0 2 

2. Gruppe: viel Struktur ohne stationäres Intervall 

MgO, Pb, Zr, Sr 

3. Gruppe: zu Gruppe 1 antikorreliert, aber kein stationäres Intervall 

CaO 

4. Gruppe: zu Gruppe 1 im vorderen Zeitbereich antikorreliert, danach unklar, stationäres 

Intervall 

TOC 33 

5. Gruppe: wenig Struktur 

Fe 2 O 3 , Na 2 O, P 2 O 5 , S, CO 2 , Sc, Co, Ni, Zn, Ga, Y, Nb, Ba, Ce, Th 

Exemplarisch wird im folgenden jeweils eine Zeitreihe einer Gruppe gezeigt. 

33 Total organic carbon: Der organische und der anorganische Kohlenstoff läßt sich separat analysieren. TOC dient als 

Indikator für die biologische Aktivität. 

64

0.7 

P1 

0.65 

0.6 

Anteil 

0.55 

0.5 

0.45 

0.4 

-250 -200 -150 -100 -50 0 

Abbildung 39: TiO 2 (Gruppe 1) 

Tiefe[m] 

1200 

P1 

1100 

1000 

900 

Anteil 

800 

700 

600 

500 

400 

300 

-250 -200 -150 -100 -50 0 

Tiefe [m] 

Abbildung 40: Sr (Gruppe 2) 

28 

P1 

26 

24 

22 

20 

Anteil 

18 

16 

14 

12 

10 

-250 -200 -150 -100 -50 0 

Tiefe [m] 

Abbildung 41: CaO (Gruppe 3) 

0.65 

P1 

0.6 

0.55 

0.5 

0.45 

Anteil 

0.35 

0.4 

0.3 

0.25 

0.2 

0.15 

-250 -200 -150 -100 -50 0 

Tiefe [m] 

Abbildung 42: TOC (Gruppe 4) 

65

300 

P1 

250 

200 

Anteil 

150 

100 

50 

0 

-250 -200 -150 -100 -50 0 

Abbildung 43: Zn (Gruppe 5) 

Tiefe[m] 

5.3 Untersuchung der Korrelationen und Hauptkomponentenanalyse 

Die Korrelationen der einzelnen Elemente zueinander werden über die Zeit gemittelt bestimmt. Durch 

eine Hauptkomponentenanalyse (PCA) und Projektion sollen die einzelnen Zeitreihen zu einer 

zusammengefaßt werden. Dazu wird für die Zeitreihen aus Gruppe 1 bis 4 die Kreuzkorrelationsmatrix 

(KKM) bestimmt. Die Form der grafischen Darstellung einer Matrix ist analog der Grafik im Kapitel 

über die Staubanalyse auf Seite 35 zu interpretieren. Auch wurde ein Umsortierung der Matrixzeilen 

und Matrixspalten durchgeführt. Mit Blei (Pb) als ersten Stoff ergab sich die Sortierung gemäß Tabelle 

18. 

1. Pb 

2. Rb 

3. K20 

14 

12 

ME=1 PS=2 LS=1 

4. Al 2 O 2 

5. TiO2 

6. Cr 

7. V 

8. Zr 

9. MgO 

10. SiO 2 

11. TOC 

12. Sr 

13. CaO 

Tabelle 18: 

Bedeutung der Koordinatenachsen 

10 

8 

6 

4 

2 

0 

0 2 4 6 8 10 12 14 

Abbildung 44: Kreuzkorrelationsmatrix der Stoffe 

Zusätzlich wurde die KKN, eingeschränkt auf das stationäre Tiefenintervall, bestimmt. Wie man durch 

Vergleich von Abbildung 44 und Abbildung 45 erkennt, sind die Korrelationen im stationären Intervall 

66

ähnlich wie die im kompletten Intervall. D.h. auf langen und kurzen Zeitskalen verhalten sich die 

Stoffkonzentrationen ähnlich zueinander. Nur SiO 2 fällt heraus und ist in dem eingeschränkten Intervall 

mit fast allen anderen Stoffen korreliert. 

14 

12 

10 

8 

6 

4 

2 

0 

0 2 4 6 8 10 12 14 

Abbildung 45: 

KKM für das Tiefenintervall [-100, -40] m 

8 

7 

6 

5 

4 

3 

2 

1 

0 

0 1 2 3 4 5 6 7 8 

Abbildung 46: PCA-Grafik der 1. Korrelationsgruppe 

Die in der sortierten KKM erkennbaren Korrelationsgruppen bestätigen die im vorigen Abschnitt durch 

Kurvenvergleich durchgeführte Einteilung. Die starke Korrelationsgruppe 1 (Al 2 O 3 , V, Cr, TiO 2 , K 2 0, 

Rb, SiO 2 ) eignet sich für eine PCA. Dazu wird die KKM separat für diese Gruppe auf das stationäre 

Intervall beschränkt bestimmt. Die PCA dieser Matrix (Abbildung 46) ist wieder analog zum Kapitel 

über die Hauptkomponentenzerlegung des LGS (Seite 40) zu lesen. Da die linke Spalte (1. 

Hauptkomponente), zu (fast) gleichen Teilen aus allen Komponenten besteht, entspricht die Projektion 

auf die 1. Hauptkomponente (fast) einer Mittelwertbildung. Die Projektion auf die 1. Hauptrichtung 

liefert die Zeitreihe in Abbildung 47. 

8 

6 

4 

2 

Anteil 

0 

-2 

-4 

-6 

-8 

-160 -140 -120 -100 -80 -60 -40 

Tiefe[m] 

Abbildung 47: 1. Hauptkomponente von (Al 2 O 3 , V, Cr, TiO 2 , K 2 0, Rb, Si0 2 ) 

67

5.4 Angewandte Methoden zur Frequenzanalyse 

Es wurden drei verschiedene Methoden angewendet, um die Milankovitch-Frequenzen in den Zeitreihen 

zu detektieren: 

1. Peaksuche im Fourierspektrum (FSM) 

2. Hauptfrequenzanalyse (MFA) 

3. Peaksuche im Maximum-Entropie-Spektrum (MEM) 

Zu 1: Die Zeitreihe wird fouriertransformiert und lokale Maxima im Leistungsspektrum gesucht. Um 

die Frequenzen genauer auflösen zu können wird die Fouriertransformation [20] kontinuierlich 34 über 

die Integralformel bestimmt 35 . 

Zu 2: Bei der Hauptfrequenzanalyse von J. Laskar et al [7] wird im FFT-Leistungsspektrum die 

Frequenz mit der größten Amplitude detektiert. Anschließend wird ein Suchverfahren gestartet, das in 

der Umgebung dieser Frequenz das lokale Maximum (bzgl. einer definierten Auflösung) im 

kontinuierlichen Leistungsspektrum bestimmt. Eine Zeitreihe mit exakt dieser Frequenz (und der 

richtigen Phase) wird generiert und von der originalen Zeitreihe abgezogen. Mit dieser reduzierten 

Zeitreihe startet die nächste Frequenzbestimmung nach derselben Methode. Dieser Vorgang wird so 

lange iteriert, bis die gewünschte Anzahl von Hauptfrequenzen gefunden wurde. 

Zu 3: Beim sogenannten Maximum-Entropie-Spektrum (MEM) [20] wird die Zeitreihe an einen 

autoregressiven Prozeß gefittet. Aus den Koeffizienten wird das Leistungsspektrum bestimmt, wobei 

keine Information über die Phase gewonnen wird. Daher ist es besonders für quasiperiodische Prozesse 

geeignet. Das MEM hat weiterhin die Eigenschaft, glatte Spektren zu erzeugen (je nach Polanzahl), 

gerade die Hauptfrequenzen stark hervorzuheben und ist visuell gut zu interpretieren. Das Spektrum 

kann kontinuierlich für jede Frequenz bestimmt werden, wodurch eine genaue Suche lokaler Maxima 

möglich ist 

5.5 Durchführung der Frequenzanalysen 

Die Frequenzanalyse wurde für drei verschiedene Datensätze durchgeführt: 

1. Datensatz: Hauptkomponente der 1. Gruppe im Tiefenintervall [-100..-40] 

2. Datensatz: Hauptkomponente der 1. Gruppe im Tiefenintervall [-150..-43] 

3. Datensatz: TOC im Tiefenintervall [-100 bis -50] 

Zu 1: Dieser Tiefenabschnitt wurde von V.E. Rachold als ein Intervall sehr konstanter 

Sedimentationsrate eingestuft und von ihm untersucht. 

34 Bzw. mit genügend kleiner Sampling-Rate 

68

Zu 2: Der tiefenmäßig erweiterte Datensatz wird zusätzlich untersucht, da er für die ausgewählten 

Stoffe durch die reine visuelle Betrachtung als gleichmäßig einzustufen ist. Falls im diesem Intervall 

auch tatsächlich konstante Sedimentationsrate herrschte, würde die größere Datenmenge eine bessere 

Frequenzbestimmung ermöglichen. 

Zu 3: Die TOC Datenreihe wird separat untersucht, da sie nur wenig zu den anderen Datensätzen 

korreliert ist, aber ein Indikator für biologische Aktivität und somit für die Sonneneinstrahung ist. 

Bei allen Analysen wird zur Eichung der Zeit bzgl. der Bohrtiefe angenommen, daß die Perioden um 

12.5 m in der Tiefenskala (detektiert durch einen Peak in Spektrum) einer Periode von 100 ka in der 

Zeitskala entsprechen. 

5.5.1 Untersuchung von Datensatz 1 

0.8 

Power(Frequenz) 

0.7 

0.6 

Po 

we 

r 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0 0.2 0.4 0.6 0.8 1 

Frequenz 

Abbildung 48: Fourierleistungsspektrum von Datensatz 1 

200 


180 

160 

140 

120 

Power 

100 

80 

60 

40 

20 

0 

0 0.2 0.4 0.6 0.8 1 

Frequenz 

Abbildung 49: ME-Leistungsspektrum mit 50 Polen von Datensatz 1 

35 Die Fast-Fourier-Transformation würde bei 128 Datenpunkten eine Auflösung rund 0.7 ka bei der 19 ka-Periode und 

16 ka bei der 100 ka-Periode liefern. 

69

Frequenz 

[1/m] 

FSM MEM MFA 

Periode Periode Frequenz Periode Periode Frequenz Periode 

[m] [ka] (1/m) [m] [ka] [1/m] [m] 

Periode 

[ka] 

0.083 12.047 100.0 0.078 12.800 100.0 0.083 12.110 100.0 

0.027 36.571 303.6 0.033 30.118 235.3 0.029 34.380 283.9 

0.043 23.273 193.2 0.117 8.533 66.1 0.114 8.792 72.6 

0.117 8.533 70.8 0.172 5.818 45.5 0.178 5.622 46.4 

0.171 5.851 48.6 0.295 3.391 26.5 0.041 24.232 200.1 

0.062 16.254 134.9 0.426 2.349 18.4 0.294 3.404 28.1 

0.009 113.778 944.4 0.926 1.080 8.4 0.125 7.983 65.9 

0.295 3.391 28.1 0.479 2.090 16.4 0.165 6.062 50.1 

0.315 3.170 26.3 0.566 1.766 13.8 1.000 1.000 8.3 

0.275 3.631 30.1 0.818 1.222 9.5 keine weiter brauchbaren Frequenzen 

0.146 6.872 57.0 0.762 1.313 11.4 

0.474 2.111 17.5 0.682 1.467 10.3 

0.256 3.908 32.4 0.328 3.048 23.9 

0.431 2.322 19.3 0.729 1.373 10.7 

0.996 1.004 8.3 0.637 1.571 12.3 

0.495 2.020 16.8 0.377 2.653 20.8 

0.565 1.769 14.7 0.873 1.145 9.0 

0.921 1.086 9.0 0.949 1.054 8.2 

0.369 2.709 22.5 

0.218 4.592 38.1 

0.347 2.885 23.9 

0.395 2.535 21.0 

0.661 1.513 12.6 

und noch mehr 

Tabelle 19: Peaks der Frequenzleistungsspektren von Datensatz 1 nach Leistung sortiert. Die grau unterlegten 

Felder enthalten die Perioden, die den Milankovitch-Perioden entsprechen. 


0.4 


0.35 

0.3 

0.25 

Power 

0.2 

0.15 

0.1 

0.05 

0 

0 0.2 0.4 0.6 0.8 1 

Frequenz 


70

80 

70 

60 


P1 

50 

Power 

40 

30 

20 

10 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Frequenz [1/1] 

Abbildung 51: MEM-Leistungsspektrum mit 50 Polen von Datensatz 2 

Frequenz 

[1/m] 

FSM MEM MFA 

Periode Periode Frequenz Periode Periode Frequenz Periode 

[m] [ka] [1/m] [m] [ka] [1/m] [m] 

Periode 

[ka] 

0.085 11.770 100.0 0.080 12.488 100.0 0.085 11.763 100.0 

0.066 15.059 127.9 0.115 8.678 69.5 0.031 31.865 270.9 

0.031 32.000 271.9 0.034 29.257 234.3 0.009 114.111 970.1 

0.097 10.343 87.9 0.175 5.721 45.8 0.067 15.017 127.7 

0.010 102.400 870.0 0.335 2.985 23.9 0.122 8.181 69.6 

0.108 9.225 78.4 0.953 1.049 8.4 0.095 10.568 89.8 

0.121 8.258 70.2 0.516 1.939 15.5 0.168 5.958 50.6 

0.045 22.261 189.1 0.288 3.471 27.8 0.042 23.990 203.9 

0.167 5.988 50.9 0.712 1.405 11.2 0.329 3.036 25.8 

0.190 5.251 44.6 0.436 2.296 18.4 0.190 5.272 44.8 

0.330 3.030 25.7 0.560 1.787 14.3 0.056 17.960 152.7 

0.204 4.900 41.6 0.918 1.089 8.7 0.110 9.077 77.2 

0.508 1.969 16.7 0.651 1.535 12.3 0.019 52.488 446.2 

0.441 2.265 19.2 0.819 1.221 9.8 0.508 1.968 16.7 ? 

0.521 1.921 16.3 0.776 1.288 10.3 1.000 1.000 8.5 

0.294 3.402 28.9 0.475 2.107 16.9 

0.717 1.395 11.9 0.392 2.554 20.4 

0.181 5.535 47.0 


Tabelle 20: Peaks der Frequenzleistungsspektren von Datensatz 2 nach Leistung sortiert 


0.16 

0.14 


Plot 1 

Plot 2 

0.12 

0.1 

0.08 

Power 

0.06 

0.04 

0.02 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Frequenz [1] 


71

70 

60 


Plot 1 

Plot 2 

Plot 3 

50 

40 

Power 

30 

20 

10 

0 

0 0.2 0.4 0.6 0.8 1 

Frequenz [1/m] 

Abbildung 53: MEM-Leistungsspektrum für 50, 60, 70 Pole von Datensatz 3. Man erkennt, daß die durch die 

Erhöhung der Polanzahl, mehr Peaks entstehen, die Hauptpeaks aber nur unwesentlich verschoben werden. 

FSM MEM (50 Pole) MFA 

Frequenz 

[1/m] 

Periode 

[m] 

Periode 

[ka] 

Frequenz 

[1/m] 

Periode 

[m] 

Periode 

[ka] 

Frequenz 

[1/m] 

Periode 

[m] 

Periode 

[ka] 

0.199219 5.01961 40.2 0.201171 4.9709 39.8 0.1988 5.0306 40.8 

0.0175781 56.8889 455.6 0.021484 46.5456 372.7 0.0170 58.7303 309.7 

0.226562 4.41379 35.3 0.263671 3.7926 30.4 0.0418 3.8733 32.1 

0.263672 3.79259 30.4 0.392577 2.54727 20.4 0.2582 4.3794 35.6 

0.0800781 12.4878 100.0 0.232421 4.30254 34.5 0.2283 8.8769 56.1 

0.109375 9.14286 73.2 0.714842 1.39891 11.2 0.1127 12.5611 100.0 

0.136719 7.31429 58.6 0.080077 12.4878 100.0 0.0796 6.9468 74.4 

0.388672 2.57286 20.6 0.136718 7.31433 58.6 0.1440 2.5571 30.2 

0.84375 1.18519 9.5 0.66992 1.49272 121.0 0.3911 3.0636 267.0 

0.554688 1.80282 14.4 0.839842 1.1907 9.5 0.3264 1.1877 24.6 

0.310547 3.22013 25.8 0.910154 1.09872 8.8 0.8420 1.0956 15.7 

0.910156 1.09871 8.8 0.552733 1.80919 14.5 0.9127 2.3195 172.2 

0.169922 5.88506 47.1 0.626952 1.59502 12.8 0.4311 1.9883 20.6 

0.470703 2.12448 17.0 0.433593 2.30631 18.5 0.5029 1.7986 11.2 

0.984375 1.01587 8.1 0.322265 3.10304 24.8 0.5560 4.7431 9.5 

0.714844 1.39891 11.2 0.974607 1.02605 8.2 0.2108 1.4071 14.6 

0.669922 1.49271 12.0 0.509764 1.96169 15.7 0.7107 1.0171 18.7 

0.498047 2.00784 16.1 0.76367 1.30947 10.5 0.9832 3.3807 27.1 

0.292969 3.41333 27.3 0.880857 1.13526 9.1 0.2958 1.1590 393.5 

0.363281 2.75269 22.0 0.478514 2.0898 16.7 0.8628 12.0106 

0.339844 2.94253 23.6 


Tabelle 21: Peaks der Frequenzleistungsspektren von Datensatz 3 nach Leistung sortiert 

72


Zu Datensatz 1 und 2: 

Die drei verschiedenen Methoden zum Auffinden der Milakovitch-Perioden liefern ähnliche Ergebnisse. 

Die 400, 41 und 100 ka-Zyklen können eindeutig identifiziert werden. Sie liegen meistens unter den 5 

leistungsstärksten. Die Detektion der 21 und 19 ka Zyklen ist nicht ganz eindeutig. Speziell bei Methode 

1, ist dieses der Fall: Es werden zwar sehr viele Frequenzen gefunden, so daß die Wahrscheinlichkeit 

steigt, daß einige den Milankovitch-Frequenzen entsprechen. Sie stehen aber in der Leistungsskala weit 

hinten, so daß die Ergebnisse nicht zuverlässig sind. Die Methode 2, die letztendlich auch auf einer 

Fourieranalyse beruht, findet die hohen Frequenzen nicht. Bei Datensatz 1 hängt der Algorithmus ab der 

9. Frequenz in einer Programmschleife fest und liefert immer wieder dieselben Frequenzen. Bei 

Datensatz 2 werden die kleinen Milakovitch-Frequenzen ebenfalls nicht gefunden: Das Suchen von 

weiteren Peaks lieferte eine Ansammlung von vielen nicht passenden Frequenzen. Schon bei der 2. 

Hauptfrequenz fällt auf, daß sie anders ist als die 2. gefunde Hauptfrequenz der Methode 1. Das 

Subtrahieren der Zeitreihe beeinflußt offensichtlich auch die anderen Frequenzen. 

Bei MEM besitzen die kleinen Milankovitch-Perioden größere Leistung und sind auch schon in der 

Grafiken des Spektrums klarer zu erkennen. Da beide Datensätze fast übereinstimmende Ergebnisse 

ergeben, ist die Vermutung bestätigt, daß auch der längere Datensatz (2) einen Tiefenintervall mit 

konstanter Sedimentation 36 ist. Im längeren Datensatz ist der 23 ka Zyklus allerdings stärker ausgeprägt 

als der 19 ka Zyklus. Im 1. Datensatz ist es umgekehrt. Der 400 ka Zyklus wird von allen Methoden 

viel zu kleiner Periode detektiert. 

theoretische Perioden [ka] 

detektierte Perioden [ka] 

Datensatz 1 Datensatz 2 

100.0 100.0 (per. Definition) 100.0 (per. Definition) 

400 235.3 234.3 

41 45.5 45.8 

19 18.4 18.4 

23 23.9 23.9 

Tabelle 22: Frequenzen für Datensatz 1 und 2 nach MEM 

36 bzw. dasselbe Sedimentationsmuster wie das kurze Tiefenintervall besitzt 

73

Zu Datensatz 3: 

Die drei Methoden liefern wieder sehr ähnliche Ergebnisse. Speziell der 100 ka Milankovitch-Zyklus 

wird ziemlich übereinstimmend in einer 12.5 m, 12.6 m bzw. 12.5 m Periode gefunden. In der TOC 

Zeitreihe liegen die Frequenzen in anderen Amplitudenverhältnissen vor als in den anorganischen 

Zeitreihen. Der leistungsstärkste Zyklus ist hier der mit 41 ka, gefolgt von dem 400 ka Zyklus, der in 

diesem Datensatz wesentlich besser mit 372 ka (durch MEM) detektiert wird. Der 23 ka und der 19 ka 

Zyklus ist nicht ganz eindeutig zu finden. Beim MEM könnten die Zyklen an der 14. und 15. Stelle in 

der Leistungsskala stehen. 

theoretische Perioden [ka] detektierte Perioden [ka] 

43 39.8 

400 372.7 

23 20.4 

100.0 100.0 (per. Definition) 

19 18.5 

Tabelle 23: Frequenzen für Datensatz 3 nach MEM 

Resümee 

Die Milankovitch-Frequenzen lassen sich in den Datenreihen identifizieren. Die vielen anderen 

detektierten Frequenzen könnten -wie J. Laskar in seiner Simulation der Erdbahnparameter [26] gezeigt 

hat- erklärt werden. Leider reicht seine Simulation nicht zu dem Zeitabschnitt des Kirchrode-Bohrkernes 

zurück, so daß nicht bekannt ist, welche Zyklen genau vor 100 Millionen Jahren herrschten. 

Als beste der getesteten Methode zur Frequenzbestimmung erscheint die MEM. Durch die Anzahl der 

Pole läßt sich die Komplexität der Spektrumstruktur und somit die Anzahl der Peaks einstellen. Das 

Spektrum liefert stabile Ergebnisse und ist eindeutig zu interpretieren. 

5.7 Liapunov-Exponent der TOC-Zeitreihe 

Die meisten statistischen Methoden zur Schätzung eines Liapunov-Exponenten [19] aus Observablen 

dynamischer Systeme benötigen große Datenmengen. Der Datenbestand muß genügend dicht den 

Phasenraum ausfüllen um die Evolution nahe benachbarter Trajektorien verfolgen zu können. Die Daten 

die für die TOC-Zeitreihe zur Verfügung stehen, erfüllt dieses Kriterium bei weitem nicht. 

Daher wird eine andere Methode angewendet, die das RBFS benutzt: Es wird ein RBFS an den 

gemessenen Daten gefittet. Das RBFS wird als eine Approximation der Dynamik des System, welches 

die Daten erzeugt hat, aufgefaßt. Damit ist eine Vorhersage der Evolution des Systems an jedem 

Phasenraumpunkt möglich. Diese Vorhersage ist für Punkte außerhalb des Attraktion natürlich i.a. 

74

falsch, kann aber für Punkte zwischen den gemessenen Datenpunkten durch die 

Interpolationseigenschaft des RBFS als eine gute Approximation angesehen werden. 

Die Untersuchung wird auf das stationäre Intervall [-100..-40] m Tiefe eingeschränkt. Die Zeitreihe 

wird als eine 3-dimensionale Phasenraumdynamik aufgefaßt: 

yt 

x , t x , t−1 xt−2 

(33) ( ) T 

= 

Ein RBFS wird auf die Vorhersage einen Zeitschritt in die Zukunft trainiert. Das Ergebnis ist in 

Abbildung 54 dargestellt. Es ergibt sich eine gute Übereinstimmung mit einem mittleren quadratischen 

Fehler von 1.8e-2. 

0.5 

P1 

P2 

0.45 

0.4 

0.35 

0.3 

0.25 

-110 -100 -90 -80 -70 -60 -50 -40 

Tiefe [m] 

Abbildung 54: fetter Plot 1: TOC; dünner Plot 2: Vorhersage 

Die vom RBFS gelernte Dynamik wird in einer iterierten Vorhersage ab dem letzen Zeitpunkt der 

verwendeten Trainingszeitreihe (-40 m) getestet. Man erkennt in Abbildung 55, daß die komplexe 

Dynamik nicht vollständig approximiert wird, sondern nur ein 5-Meter-Zyklus (41 ka) zu erkennen ist 37 . 

Eine Frequenzanalyse der iterierten Vorhersage (Abbildung 56) liefert unter der Annahme, daß 12.4 m 

100 ka entsprechen für die leistungsstärkste Periode 43.4 ka. Allerdings ist auch eine 21 ka-Periode 

(entspricht der 23 ka Milankovitch-Frequenz) als drittstärkster Peak im Spektrum zu finden. 

Da die Iteration der RBFS-Vorhersage nicht eine Zeitreihe, ähnlich der originalen Zeitreihe erzeugt, ist 

es nicht sinnvoll eine Trajektorie über mehrere Zeitschritte zu verfolgen und daraus den Liapunov- 

Exponenten zu bestimmen. Allerdings liefert das RBFS gute Ergebnisse bei der 1-Schrittvorhersage 

(Abbildung 54). Daher wird über die Liapunov-Exponenten der 1-Schrittvorhersage gemittelt: Hierzu 

wird für zwei Punkte P 1 und P 2 mit Abstand ε um den ersten Phasenpunkt P der gemessenen Zeitreihe 

herum (bei -99.5 m) die Vorhersage mit dem RBFS berechnet und der Abstand der vorhergesagten 

Phasenraumpunkte bestimmt. In den nächsten Rechenschritten wird mit den folgenden 

37 Der 400 ka Zyklus (rund 50 m)kommt nur einmal im ganzen Datensatz vor und kann somit nicht moduliert werden 

(statistisches Gewicht). Für den 100 ka Zyklus (ca. 13 Datenpunkte) gilt dieses entsprechend. Außerdem werden durch die 

kleine Einbettungsdimension von 3 hohe Frequenzen bevorzugt. 

75

Phasenraumpunkten der gemessenen Zeitreihe nach demselben Verfahren fortgefahren. D.h., die 

Vorhersage wird nicht iteriert, sondern in jedem Schritt auf einen gemessenen Datenpunkt bezogen 

(Vorhersage bleibt auf dem Attraktor). Iteriert wird allerdings die Richtung R in der P 1 und P 2 mit 

Abstand ε von P im jedem Schritt bestimmt werden. Gestartet wird mit einer willkürlichen Richtung 

beim ersten Rechenschritt. In jedem folgendem Schritt wird R, aus der Vektordifferenz der zwei 

vorhergesagten Punkt bestimmt. Dadurch dreht sich R in die Richtung des größten Liapunov- 

Exponenten. 

Diese Analyse liefert einen Wert von λ = 0. 22 für einen Zeitschritt (0.5 m). Eine Untersuchung für 

einen 4-dimensionale Einbettung liefert einen Liapunov-Exponenten von 0.18. Die Frequenzanalyse der 

iterierten Vorhersage hat hier die Hauptfrequenz 40.5. Die anderen Frequenzen sind nicht eindeutig. 

0.44 

P1 

0.43 

0.42 

0.41 

0.4 

0.39 

0.38 

-40 -30 -20 -10 0 10 20 

Tiefe [m] 

Abbildung 55: Iterierte Vorhersage 

1000 

100 

10 

43.4 ka 

21.0 ka 


P1 

P2 

1 

Power 

0.1 

0.01 

0.001 

0.0001 

1e-05 

0 0.2 0.4 0.6 0.8 1 

Frequenz [1/m] 

Abbildung 56: Maximum Entropie Leistungsspektrum mit 40 Polen von TOC (fett) und der iterierten 

Vorhersage (dünn). Die Zeitreihen sind vor der Frequenzanalyse auf Mittelwert 0 und Varianz 1 normiert 

worden. 

76

6 Untersuchung des Ökosystems Peruanisches Auftriebsgebiet 


Auftriebsgebiete sind Meeresregionen, die kontinuierlich mit Tiefenwasser versorgt werden. Dieses 

Wasser strömte lange Zeit ohne Oberflächenkontakt in den unteren Meeresschichten und ist teilweise 

hunderte von Jahren "alt". In dieser Zeit ist es stark mit organischen Sinkstoffen aus den höheren 

(biologisch aktiveren) Schichten angereichert worden. In Küstennähe tritt dieses Wasser i.a. wieder an 

die Oberfläche. Ablandiger Wind treibt das Oberflächenwasser ins Meer hinaus. Die Erhöhung der 

Wassersäule draußen im Meer bewirkt einen Druckgradienten und damit eine Strömung des 

Tiefenwassers zum Land. Dieser Prozeß stabilisiert sich und setzt eine Förderschnecke in Gang, die 

schon Jahrtausende läuft. 

Die Nährstoffe an der Oberfläche werden wieder vom biologischen Kreislauf aufgenommen und steuern 

über das Planktonwachstum den Bestand der höheren Tiere in der Nahrungskette. Der Mensch nutzt 

diese enorme biologische Aktivität - ca. 40 % des Weltfischfangertrages stammen aus den 

Auftriebsgebieten. 

Die Region vor der Küste von Peru gehört mit Abstand zu den produktivsten Auftriebsgebieten [17]. 

Der Hauptertrag der Fischerei wird hier mit einer kurzlebigen Heringsart (Anchoveta) erbracht. Der 

Anchovetabestand ist mit schweren wirtschaftlichen und sozialen Folgen 1972/73 in Verbindung mit 

einem El Nino 38 und durch die starke Überfischung zusammengebrochen und hat sich bis heute nicht 

wieder erholt. 

In verschiedenen Projekten wurden Forschungsvorhaben durchgeführt, um aus dem Verständnis der 

Dynamik des Ökosystems ein besseres Konzept zur Bewirtschaftung zu erarbeiten. Zur Analyse des 

Systems liegt ein über 30 Jahre reichender Datensatz der Anchoveta-Art seit 1953 in monatlicher 

Auflösung vor. Mit weiteren biologischen und physikalischen Parametern (insgesamt 47 die 

zusammengetragen worden sind), liegt ein Datenbestand vor, der weit über den hinaus geht, der 

normalerweise für die Modellierung eines Ökosystems zur Verfügung steht [18]. Trotzdem ist das 

Kernproblem, die Vorhersage der Biomasse der Schlüsselart Anchoveta, die eine zentrale Stellung im 

Nahrungsnetz einnimmt, nicht gelungen. 

In Zusammenarbeit mit Dr. A. Jarre-Teichmann und Dr. Thomas Brey (Alfed-Wegener-Institut in 

Bremerhaven) soll untersucht werden, ob die Algorithmen im DSN (im Schwerpunkt neuronale Netze) 

geeignet sind, um diese Datensätze zu analysieren und eine Vorhersage des Anchovetabestandes über 

drei Monate zu ermöglichen, um fischerei-regulatorische Maßnahmen davon abzuleiten. 

38 Übersetzt: Das Christkind. Spezielle Wettererscheinung zur Weihnachtszeit, welche die Förderschnecke zu stillstand 

bringt und ein Fischsterben verursacht. 

77

6.2 Frequenzanalyse der Anchoveta-Zeitreihe 

In einer Frequenzanalyse soll untersucht werden, ob die Anchovetazeitreihe (Abbildung 57) periodische 

Strukturen enthält. Die Fouriertransformation (Abbildung 58) liefert ein sehr strukturloses Spektrum, in 

dem selbst der Jahreszyklus sehr schlecht zu erkennen ist. Allerdings läßt sich durch eine 

Spektrumsberechnung nach der Maximum-Entropie-Methode (MEM) [20] der Jahrespeak deutlicher 

hervorheben. Selbst eine Quasiperiodizität würde aber ein ausgeprägteres Spektrum liefern, so daß 

angenommen werden muß, daß die Dynamik wenig Periodizität besitzt oder durch einen sehr großen 

Rauschanteil überlagert wird. Daher ist zu erwarten, daß eine Vorhersage sehr schwer sein wird. 

2.5e+07 

2e+07 

1.5e+07 

Value 

1e+07 

5e+06 

0 

50 55 60 65 70 75 80 85 90 

Time [year] 

Abbildung 57: Anchovetabestand 

Power 

1e+14 

1e+13 

1e+12 

1e+11 

1e+10 

1e+09 

1e+08 

1e+07 

1e+06 


P1 

100000 

0 1 2 3 4 5 6 

Frequenz [1/year] 

Abbildung 58: Fourierleistungsspektrum der Anchovetazeitreihe 

1e+17 

1e+16 

1e+15 


P1 

Power 

1e+14 

1e+13 

1e+12 

1e+11 

1e+10 

0 1 2 3 4 5 6 

Frequenz [1/year] 

Abbildung 59: Maximum Entropie Leistungsspektrum (50 Pole) der Anchovetazeitreihe 

78

6.3 Vorhersage des Anchoveta-Bestandes 

Es soll versucht werden, aus dem Anchoveta-Datensatz ein Vorhersagesystem für diesen Fischbestand 

über 3 Monate zu entwickeln. Diese Zeitreihe (Abbildung 57), ist mit einem Trend zwischen 1955 und 

1972 sowie einer Steigung von rund 1 / 5 stark nichtstationär. Jedes Jahr erhöhte sich der Fischbestand um 

20% und fiel dann innerhalb von 2 Jahren auf rund ¼ des Maximalwertes ab. Nach diesem 

Zusammenbruch hat der Kurvenverlauf nur wenig Ähnlichkeit mit dem vorderen Teil der Zeitreihe. Es 

ist anzunehmen, daß ein Phasenüberganges des Ökosystem stattfand, der zu einer veränderten Dynamik 

führte. 

Für die rein statistische Vorhersage mit neuronalen Netzwerken sind stationäre Daten nötig. Für jeden 

Dynamikzustand müssen mehrere (am besten sehr viele) benachbarte Phasenraumpunkte zur 

Auswertung zur Verfügung stehen. Daraus folgt, daß die beiden Zeitabschnitte getrennt untersucht 

werden müssen. Zusätzlich müssen die Zeitreihen gefiltert werden, da sie auch einzeln nicht stationär 

sind. Es stellt sich die Frage, welcher Filter verwendet werden soll. 

Eine einfache Elimination des Trends im vorderen Teil der Zeitreihe reicht nicht aus: Es entstehen rund 

3½ Schwingungen mit einer Periode von ca. 5 Jahren. In der Zeitskala von drei Monaten in der 

vorhergesagt werden soll, ist das nicht als stationär anzusehen. Eine statistische Auswertung ist 

unmöglich: Nur drei mal liegen dieselben Systemzustände vor. 

In den folgenden Kapiteln wurden drei verschiedene Filter angewendet 39 : 

1. Differenz zur linearen Regressionsvorhersage 

2. Differenz zum gleitenden Mittelwert 

3. Frequenzfilter mit einem Radial-Basis-Funktionen-System (RBFS) 

6.3.1 Lineare Regressions-Vorhersage 

Die Zeitreihe enthält viele kleine Trendabschnitte, so daß sich eine Vorhersage durch eine lineare 

Regression (LRV) anbietet: Aus den Daten über 12 Monate wird auf den Wert drei Monate später linear 

extrapoliert (Abbildung 60). Die Differenz zwischen der originalen und der extrapolierten Vorhersage 

ist nicht varianzstationär und wird durch die rückwärtige Varianz über 10 Monate drei Monate vorher 

geteilt. Nach dieser Skalierung (Abbildung 61) bildet sich ein Muster mit einer Periode von zwei Jahren 

heraus. Dieses Muster tritt in den Jahren 1955 bis 1962 dreimal klar ausgeprägt und anschließend nur 

stark deformiert auf. Erstaunlicherweise taucht es in den Jahren 1976-1980 wieder auf. Offensichtlich 

hat das Filter die Eigenschaft, gewisse stationäre Teile der Zeitreihe zu extrahieren. Dieses würde auch 

bedeuten, daß der hintere Teil der Zeitreihe (nach dem Zusammenbruch des Anchovetabestandes) doch 

eine ähnliche Dynamik (nur mit kleinerer Amplitude) aufweist wie der vordere Teil. 

39 Bei allen Filter muß auf echte Vorhersagebedingungen geachtet werden: Nur Information von vergangenen Zeitpunkten 

dürfen für die Berechnung verwende werden. Durch diese Einschränkung wird die Effizienz der Filter zur Erhöhung der 

Stationärität teilweise stark eingeschränkt. 

79

4 

P1 

P2 

3 

2 

1 

0 

-1 

-2 

50 55 60 65 70 75 80 85 90 

Time [year] 

Abbildung 60: 

Plot1: Anchoveta, Plot2: Lineare Regressionsvorhersage 

Aus 12 Monaten Vergangenheit wird drei Monate in die Zukunft linear extrapoliert. 

5 

4 

P1 

3 

2 

1 

0 

-1 

-2 

-3 

-4 

-5 

50 55 60 65 70 75 80 85 90 

Time [year] 

Abbildung 61: Differenz zwischen Anchoveta-Zeitreihe und LRV und anschließender Varianzskalierung 

Die Differenzzeitreihe wird mit einem RBFS (Clustertiefe 5, lineare lokale Funktionen) vorhergesagt. 

Die Zeitreihe wird als Ergebnis einer 4-dimensionalen Phasenraumdynamik aufgefaßt, indem aus den 

Daten vier aufeinanderfolgende Monate der Anchovetabestand drei Monate später bestimmt werden soll. 

Die Datenpunkte von 1954 bis 1970 wurden als Informationsbasis zum Training des RBFS benutzt. In 

Abbildung 62 sieht man daß, die Dynamik recht gut approximiert wird. In Abbildung 63 ist die 

wesentlich bessere 1-Schrittvorhersage zu erkennen. 

80

4 

3 

P1 

P2 

P3 

2 

1 

0 

-1 

-2 

-3 

-4 

54 56 58 60 62 64 66 68 70 72 

Time [year] 

Abbildung 62: 3-Schrittvorhersage. Um das Ergebnis besser beurteilen zu können, wurden Linien zwischen 

gemessenem Anchoveta-Bestand und vorhergesagtem drei Monate später eingefügt. Ohne diese 

Vorgehensweise kann schon die Persistenzvorhersage optisch gute Ergebnisse vorspiegeln. 

4 

3 

P1 

P2 

P3 

2 

1 

0 

-1 

-2 

-3 

-4 

54 56 58 60 62 64 66 68 70 

Time [year] 

Abbildung 63: Einschrittvorhersage 

In Abbildung 64 ist eine Aufteilung in Lerndaten (bis1962) und Testdaten durchgeführt worden. Es 

ergibt sich ein schlechteres Ergebnis, da die benutzten Daten offensichtlich nicht ausreichen, um die 

Dynamik der Zeitreihe komplett zu erfassen. In einem weiteren Test wurden auch die Daten bis 1970 

benutzt, um das Intervall von 1973 bis1979 vorherzusagen. Es ergibt sich aber ein ähnliches Ergebnis. 

3 

2 

Value-Time-Plot 

P1 

P2 

P3 

1 

0 

Value 

-1 

-2 

-3 

-4 

64 65 66 67 68 69 

Time [1] 

Abbildung 64: Vorhersage für Lerndaten bis 1964 

81

6.3.2 Differenzfilter 

Ein weiteres Filter zur Erhöhung der Stationärität ist der Differenzfilter. In dem vorliegen Fall wird der 

aktuellen Wert der Zeitreihe der rückwärtige Mittelwert über 12 Monate drei Monate vorher subtrahiert. 

Anschließend wird zur Varianzstabilisierung, mit der rückwärtige Varianz der originalen Zeitreihe über 

12 Monate drei Monate vorher geteilt. Damit ergibt sich die Zeitreihe in Abbildung 65. Dieses Filter 

erzeugt eine Zeitreihe mit wenig Regelmäßigkeiten. Daher lieferten die Vorhersageversuche nur wenig 

brauchbare Ergebnisse für unabhängige Testset. Die Ergebnisse werden daher hier nicht gezeigt. 

25 


P1 

20 

15 

10 

Value 

5 

0 

-5 

-10 

50 55 60 65 70 75 80 85 90 

Time [year] 

Abbildung 65: Differenzzeitreihe mit Varianzstabilisierung 

Trotzdem extrahiert das RBFS aus den Daten einen gewissen regelmäßigen Teil. Die Vorhersage wurde 

iteriert, indem der vorhergesagte Wert dazu benutzt wurde, um einen neuen Phasenpunkt zu generieren. 

Dadurch kann die Vorhersage beliebig in die Zukunft fortgesetzt werden und man erhält eine Zeitreihe, 

die der ungestörten inneren Dynamik des RBFS entspricht. In Abbildung 66 ist zu erkennen, daß der 

jahreszeitliche Zyklus nachgebildet wird, aber wie durch eine Dämpfung allmählich abklingt. 

1.35 


P1 

1.3 

1.25 

1.2 

1.15 

Value 

1.1 

1.05 

1 

0.95 

0.9 

84 86 88 90 92 94 96 98 100 102 104 

Time [1] 


82

6.3.3 Radialfunktionen-System-Interpolation 

Das RBFS kann als Interpolator benutzt werden, um verschiedene Frequenzbereiche einer Zeitreihe zu 

trennen. Dieser Filter ist nicht für eine Vorhersage erlaubt, da hier Information über zukünftige und 

vergangene Werte vermischt wird. Er wird hier trotzdem verwendet, um zu überprüfen, ob der 

hochfrequente Teil der Anchoveta-Zeitreihe regelmäßige Strukturen enthält. In Abbildung 67 ist die 

Anchoveta-Zeitreihe und deren Interpolation dargestellt und in Abbildung 68 die Differenz dieser beiden 

Zeitreihen zu sehen. 

3.5 

3 


Plot 1 

Plot 2 

Plot 2 

2.5 

2 

1.5 

Value 

1 

0.5 

0 

-0.5 

-1 

-1.5 

50 55 60 65 70 75 80 85 90 

Time [1] 

Abbildung 67 : Original Anchveta-Zeitreihe (zackig) und interpolierte Zeitreihe (glatt) 

1 

0.8 


Plot 1 

Plot 1 

0.6 

0.4 

0.2 

Value 

0 

-0.2 

-0.4 

-0.6 

-0.8 

-1 

50 55 60 65 70 75 80 85 90 

Time [year] 

Abbildung 68 : Differenz zwischen Anchoveta Zeitreihe und Interpolation 

83

Mit diesem hochfrequenten Teil wird ein RBFS auf 1-Schrittvorhersage trainiert. Dabei ergaben sich 

mit der Phasenraumkodierung (time-delay) nach folgender Formel die besten Ergebnisse: 

y 

( 

i 

+ xi− 1)/ 

2,( xi−2 

+ xi−3)/ 

2, ( xi−4 

+ xi−5)/ 

2, ( xi−6 

+ xi−7 

+ xi−8 

(34) ( ) T 

t 

= 

x )/ 3 

In Abbildung 69 ist für einen kleine Zeitabschnitt das Original und das Vorhersageergebnis dargestellt. 

Die Kurven stimmen relativ gut überein. An der iterierte Vorhersage (Abbildung 70) erkennt man, daß 

auch hier der Jahreszyklus (ein wenig verkürzt) gut approximiert wird. Nach einem Einschwingvorgang 

stabilisiert sich dieser. 

0.4 

0.3 


Plot 1 

Plot 2 

Plot 2 

0.2 

0.1 

Value 

0 

-0.1 

-0.2 

-0.3 

-0.4 

76 78 80 82 84 

Time [1] 

Abbildung 69 : fetter Plot1: Vorhersage, dünner Plot 2: Original 

0.15 


Plot 1 

Plot 1 

0.1 

0.05 

Value 

0 

-0.05 

-0.1 

-0.15 

80 85 90 95 100 

Time [year] 


84

6.4 Korrelationen 

Es soll untersucht werden, ob die bekannten biologischen Zusammenhänge in den Datenreihen 

wiederzufinden sind. Da das Hauptinteresse in Zusammenhängen über kürzere Zeiträume (drei Monate) 

liegt und nicht in den Korrelationen über viele Jahre, werden als Datenbasis die Differenzen zu dem 

jeweilige zentrierten Mittelwerten über 12 Monate benutzt. Von diesen Zeitreihen wird die 

Kreuzkorrelationsmatrix berechnet. 

Folgende Tierbestände wurden 

untersucht: 

1. Seehund 

2. Sardelle 

3. Tölpel 

4. Kormorane 

5. Pelikane 

6. Seelöwen 

10 

8 

6 

4 

2 

ME=1 PS=0.5 LS=1 

7. Makrelen 

8. Horse-Makrelen 

9. Seehecht 

0 

0 2 4 6 8 10 

Abbildung 71: Kreuzkorrelationsmatrix der Tierbestände 

Die hier verwendete grafische Darstellung einer Matrix (Abbildung 71) ist übersichtlicher als eine 

Zahlentabelle und wird folgendermaßen interpretiert: Die Größe des Matrixelementes wird durch die 

Kantenlänge der Quadrate (die zu Rechtecke verzerrt sind) repräsentiert. Das Vorzeichen wird durch ein 

Kreuz (entsprechend plus für positive) und durch eine horizontale Linie (entsprechend minus für 

negativ) im Quadrat dargestellt. Das Zentrum eines Rechteckes hat die Koordinaten der entsprechenden 

Zeile (Abszisse) bzw. Spalte (Ordinate) der zugrundeliegenden Matrix. 

Aus dieser Abbildung erkennt man, daß die Seehunde und die Sardellen positiv miteinander korreliert 

sind und daß beide zu den beiden Makrelenarten (Raubfische) antikorreliert sind. Im Falle der Sardelle 

läßt sich diese Antikorrelation dadurch erklären, daß sie durch die Raubfische vermehrt gefressen 

werden. Genauso bilden die Vögel (Tölpel, Kormorane und die Pelikane) eine Korrelationsgruppe, die 

wahrscheinlich aus demselben Grund zu den beiden Makrelenarten antikorreliert ist. Die Makrelenarten 

hingegen, sind in der KKM nicht zu unterscheiden, zeigen also dieselben Beziehungen zu den anderen 

Arten. Sie bilden mit dem Seehecht und ebenfalls mit dem Seelöwen zusammen eine weitere 

Korrelationsgruppe, die stark mit den Tölpel und den Kormoranen sowie schwächer mit der Sardelle 

und dem Seehund antikorreliert ist. Die Beziehung zu der Sardelle ließe sich als Beute und die zu den 

anderen als Freßfeind erklären. 

85

Es wurden versucht durch Ausnutzung dieser Korrelationen die Vorhersage des Anchoveta-Bestandes 

zu verbessern. Die zahlreichen Versuche mit den unterschiedlichsten Methoden sind alle fehlgeschlagen. 


Diese oben vorgestellten Verfahren liefern gute Ergebnisse, solange sie mit den Lerndatenmenge getestet 

werden und zeigen, daß das RBFS gut geeignet sind, um unregelmäßige Funktionen zu approximieren. 

Sobald aber versucht wird, unbekannte Teile einer Zeitreihe vorherzusagen, verschlechtert sich das 

Ergebnis drastisch. Daraus läßt sich folgern, daß die Anchoveta-Zeitreihe alleine zu kurz bzw. zu 

unregelmäßig ist, um statistische Verfahren zur Vorhersage anzuwenden. 

Durch die Anwendung des lineare Regressionsfilter wird eine regelmäßige Komponenten der Anchoveta- 

Zeitreihe sichtbar. Dieses Muster mit einer Länge von zwei Jahren tritt dreimal im vorderen Teil der 

Zeitreihe auf und findet sich teilweise im mittleren und auch im hinteren Teil stark transformiert wieder. 

Da dieses Muster zu unregelmäßig ist und nur dreimal ausgeprägt vorkommt, läßt es sich für eine 

Vorhersage, spezielle der 3-Monatsvorhersage nicht nutzen. 

Das RBFS extrahiert aus der Zeitreihe bei den iterierten Vorhersagen einen Jahreszyklus, der im 

Fourierspektrum nur schwach zuerkennen ist. 

86

7 Downscaling und Vorhersage von Wetterdaten in Potsdam 


In diesem Abschnitt werden die entwickelten Methoden auf das sogenannte “Downscaling“ angewendet. 

Unter diesem Begriff wird in der Meteorologie das Abbilden von Wetterobservablen, in räumlich 

großskaligen Auflösung (global), auf Observablen, die das Wettergeschehen an einem begrenzten Ort 

(lokal) beschreiben, verstanden. Dabei wird angenommen, daß die globalen Variablen G 

Wetterszenarios beschreiben, die spezifische Auswirkungen in Abhängigkeit von den lokalen 

Gegebenheiten R des Ortes (Gebirge, Wasserflächen, etc.) haben. Es wird also folgende Abbildung 

gesucht: 

(35) L = f 

R( G) 

Bei der klassischen Definition des Downscalings werden immer Daten derselben Zeitpunkte miteinander 

verglichen, d.h. es sollen nur räumliche Korrelationen untersucht und nicht aus vergangenen Daten in 

die Zukunft extrapoliert werden. Der verwendete übliche Begriff „Vorhersage“ bezieht sich in diesem 

Abschnitt daher auf die räumliche Vorhersage, falls nicht anders erwähnt. 

Trotzdem ist das Verfahren für eine zeitliche Vorhersage auf sehr großen Zeitskalen nützlich. Das 

globale Wettergeschehen läßt sich in sogenannten Global Circulation Models (GCM) über Jahre bis 

Jahrzehnte simulieren. Diese “Welt-Simulationen“ liefern Wetterdaten in Gittern sehr geringer 

Auflösung. Die lokalen Auswirkungen, die von Ort zu Ort sehr stark variieren können, lassen sich 

daraus daher nicht erhalten. Eine Abbildung (35) hätte somit, falls sie auch für die Zukunft zuverlässig 

wäre, eine sehr große Bedeutung für die Klimavorhersage. Damit ließen sich die konkreten und 

spürbaren Auswirkungen von Klimaveränderungen deutlich machen. Ein großes Interesse spielen hierbei 

die verschiedenen CO 2 -Emissionsszenarien und deren Einfluß auf den Wasserhaushalt. Das 

Hauptinteresse liegt deshalb auf der Vorhersage der Feuchtigkeitsgrößen. 

Ein Weg, um diese Abbildung zu finden, ist ein direkter dynamischer Ansatz, bei dem die lokalen 

wetterformenden Elemente R durch physikalische Modellierung einfließen. Dieser Weg ist aber 

aufgrund der komplexen hydrologischen und chaotischen Wechselwirkungen sehr schwierig. In dieser 

Arbeit wird daher versucht, aus den beobachteten globalen und lokalen Meßwerten der Vergangenheit 

mit Hilfe statistischer Methoden die Abbildung zu schätzten. 

Zu diesem Zweck ist von Dr. G. Bürger (Potsdamer Institut für Klimafolgenforschung, PIK) eine 9770 

Punkte lange Zeitreihe mit täglichen Wetterbeobachtungen ab dem 1.10.1962 als Datenbasis zur 

Verfügung gestellt worden. Die darin enthaltenen globalen Wetterzustände sind aus Meßpunkten über 

Europa und dem Nordatlantik gewonnen worden. Durch die Anpassung eines GCM an diese Meßwerte 

ist daraus ein Druck- und Temperaturfeld in Gitterform bestimmt worden. Da der Umfang dieser Daten 

87

mit jeweils 213 Zeitreihen für Druck und Temperatur (pT-Zeitreihen) enorm ist, wurde zur 

Vereinfachung der Analyse, und um die darin enthaltenen Korrelationen auszunutzen, die Datenbasis 

vom PIK mit Hilfe einer Komponentenanalyse (PCA) komprimiert. Dabei wurden nach Eliminierung 

des mittleren Jahresganges durch die Projektion auf die 41 größten Hauptrichtungen schon 90% der 

Varianz erfaßt [21]. 

In dem zur Verfügung gestellten Datensatz sind neben den transformierten pT-Reihen 14 

Wetterobservablen für jeden Tag, lokal in Potsdam gemessenen, enthalten. Die hier durchgeführte 

Analyse konzentriert dabei auf die Observablen in Tabelle 24. Bei allen Analysen ist die Datenbasis in 

zwei Teile zerlegt worden. Die ersten 6000 Datenpunkte werden benutzt, um die Verfahren zu 

entwickeln und die Parameter zu optimieren (Trainingsdatensatz). Die Daten ab 6001 bis 9770 dienen 

zur Überprüfung des Systems (Testdatensatz). 

Observable 

Niederschlag 

Maximaltemperatur 

Wasserdampfdruck 

Abkürzung 

PRC 

TMAX 

HPR 

Tabelle 24: Untersuchte lokale Observablen 

7.2 Untersuchung des Niederschlages 

7.2.1 Untersuchung des Jahresganges 

Ein Ausschnitt der Niederschlagszeitreihe, die wichtigste hydrologische Größe, ist in Abbildung 72 zu 

sehen. Er enthält die ersten 365 Tage des Analysezeitraumes und kann von der zeitlichen Verteilung 

sowie den Amplituden als typisch angesehen werden. Deutlich ist eine gewisse zeitliche Clusterung der 

Trocken- und Regentage erkennbar. Es fällt auf, daß es viele Regentage mit kleinen 

Niederschlagsamplituden und nur wenige mit sehr starken gibt. 

Der Niederschlag unterliegt bekanntermaßen einem Jahresrythmus. Läßt sich dieser in den Daten 

erkennen und ausnutzen? Um dieses zu untersuchen, wurden die Jahresgänge über 16 Jahre miteinander 

verglichen (Abbildung 73). Es ist klar zu erkennen, daß zwar eine Häufung des Regens im Herbst 

vorhanden ist, allerdings die Schwankungen bzgl. Amplitude und Position der Maxima über die Jahre 

sehr variabel sind. Daher ist es nicht möglich, hieraus verwertbare Informationen für die Vorhersage zu 

erhalten, so daß eine Jahresgangmodelierung nicht durchgeführt wird. 

88

25 

20 

15 

10 

5 

0 

0 50 100 150 200 250 300 350 400 

Time [d] 

Abbildung 72: Niederschlagswerte für ein Jahr ab dem 1.10.1962 

4 

P1 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

0 

0 50 100 150 200 250 300 350 400 450 

Time [d] 

Abbildung 73: Die Regenamplituden wurden zuerst durch eine 60-Tage und anschließend eine 30-Tage 

gleitende Mittelung geglättet. Diese zweifache Mittelung entspricht einem trapezförmigen Filter mit einem 

einfachen Mittelwert über 31 Tage und linearem Abfall über 30 Tage zu beiden Seiten hin. Die Zeitreihe ist 

dann in 16 Jahresabschnitte geteilt worden. 

7.2.2 Downscaling der Niederschlagsamplituden 

Die Relation der globalen pT-Daten zu den Regenamplituden soll bestimmt werden. In einem ersten 

Untersuchungsschritt werden verschieden große RBFS mit konstanten lokalen Funktionen verwendet. 

Optimiert wurde nach dem mittleren quadratischen Fehler des Trainingsdatensatzes. An den 

Ergebnissen in Tabelle 25 sieht man, daß bei ca. 60 Cluster die Grenze zum overfitting liegt, denn eine 

noch feinere Auflösung erhöht den Fehler im Testdatensatz. 

Um die Ergebnisse zu verbessern, wurde eine komplexere Netzwerkform mit affin-linearen 

Radialfunktionen getestet. Wegen der hohen Dimension der Eingabedaten von 41 wird hier schon bei 

recht kleinen Netzwerken enorm viel Computerspeicher und lange Rechenzeiten benötigt. Nach einigen 

Probeläufen ergab sich aber ein recht erstaunliches Ergebnis: Es ist nicht nötig, große Netzwerke zu 

generieren, die besten Ergebnisse werden mit einem simplen “Netzwerk“ aus nur einem Cluster erhalten 

(Tabelle 25). Zusätzlich wurde die Radialfunktion für dieses eine Cluster ausgeschaltet 

89

(Reichweitenskalierung unendlich), so daß diese Form des RBFS eine einfache lineare Abbildung 

darstellt. 

Das 57-clusterige RBFS mit konstanten lokalen Funktionen generiert damit ein Abbildung ähnlich einer 

linearen Funktion. Diese beiden Verfahren sind aber offensichtlich nicht ganz gleichzusetzen, da bei den 

mehr-clusterigen durch die feinere Justiermöglichkeiten der Clusteranzahl die Grenze zu overfitting 

besser austariert werden kann und sich ein um ca. 1% besseres Ergebnis ergibt. 

Die Anwendung der beiden RBFS auf die ersten 365 Tage des Testdatensatzes ist in Abbildung 74 und 

Abbildung 75 zu sehen. Es ist zu erkennen, daß beide Verfahren auch als Zeitreihe recht ähnliche 

Ergebnisse liefern. Bei beiden Verfahren stimmen auch die gemessenen und die berechneten 

Regenereignisse stellenweise gut überein und dieses, obwohl für die Berechnung der Vorhersage nur die 

globale pT-Daten zur Verfügung standen. Speziell im hinteren Teil der Zeitreihe ist die Clusterung der 

Regentage sehr gut modelliert worden. Trotzdem findet man viele falsch getroffenen Trocken- und 

Regentage. Ebenso scheint das System die Amplituden, speziell die hohen, nicht sehr gut abbilden zu 

können. 

25 

P1 

P2 

20 

15 

10 

5 

0 

-5 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

Abbildung 74: RBFS mit 63 konstanten lokalen Funktionen angewendet auf die ersten 365 Tage des 

Testdatensatzes. dünner Plot 1: gemessen, fetter Plot 2: vorhergesagt 

25 

P1 

P2 

20 

15 

Val 

ue 

10 

5 

0 

-5 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

Abbildung 75: RBFS mit einer affin-linearen Funktion angewendet auf die ersten 365 Tage des Testdatensatzes 

90

25 


P1 

P2 

25 


P1 

P2 

20 

20 

15 

15 

Value 

10 

Value 

10 

5 

5 

0 

0 

-5 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

-5 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

Abbildung 76: RBFS mit zwei affin-linearen 

Funktionen angewendet auf die ersten 365 Tage des 

Testdatensatzes 

Abbildung 77: RBFS mit vier affin-linearen 

Funktionen angewendet auf die ersten 365 Tage des 

Testdatensatzes 

Methode 

Mittlerer quadratischer Fehler 

des Testdatensatzes 


des Trainingsdatensatzes 

Simple Mittelwertvorhersage 3.574 3.805 

konstante lokale Fkt., 39 Cluster (100) 3.457 3.696 






lineare lokale Fkt., 1 Cluster 3.436 3.679 

lineare lokale Fkt., 2 Cluster 3.451 3.627 

lineare lokale Fkt., 3 Cluster 

(Alle 3 Cluster von oben, gleichzeitig gefittet) 

3.475 3.608 

Tabelle 25: Übersicht über die Ergebnisse bzgl. Clusteranzahl und Form der lokalen Funktionen. Die 

modellierten negativen Niederschlagswerte wurden vor der Bestimmung des Fehler auf 0 gesetzt. 

Außerdem ist auffällig, daß der Fehler im Testdatensatz um ca. 7% geringer als der im 

Trainingsdatensatz ist, was darauf schließen läßt, daß der Testdatensatz eine andere Datenverteilung 

oder stärkere Korrelationen mit den globalen pT-Daten besitzt und leichter vorherzusagen ist. Eine 

Bestimmung der Streuung beider Datensätze (Tabelle 25, Mittelwertvorhersage) zeigt, daß die Streuung 

des Testdatensatzes um ca. 7% geringer ist als die des Trainingsdatensatzes. Da die Streuung dem 

mittleren quadratischen Fehler der Mittelwertvorhersage entspricht, sieht man außerdem, daß aus dem 

Datenbestand durch das aufwendige Verfahren der Radial-Basis-Funktionen ein nur ca. 4% besseres 

Ergebnis erzielt wird. Dieses ist erstaunlich, da die einfache konstante Mittelwertvorhersage überhaupt 

keine Information über den täglichen Regenverlauf enthält. In der Abbildung 74 ist aber offensichtlich 

eine Korrelation zwischen den beobachteten und den modulierten Regenereignissen vorhanden. Daraus 

muß man schließen, daß das verwendete mittlere Quadrat der Differenzzeitreihe für diesen 

Zeitreihenvergleich als Maß für den Fehler ungeeignet ist. Dies wird deutlicher, wenn man sich die 

Verteilung der logarithmierten Regenamplituden in Abbildung 78 mit dem sehr langsamen Abfall bei 

91

hohen Niederschlagsmengen betrachtet. Da die vorhergesagten maximale Niederschlagsmengen ca. 5 ist 

(entspricht ca. 1.3 in der logarithmierten Skala), wird klar, daß der Großteil der Fehler durch die hohen 

Regenamplituden verursacht wird und somit die Unterschiede bei den kleinen Amplituden verdeckt 

werden. Noch deutlicher ist dieses in Abbildung 79, in der die Verteilung der Fehler dargestellt ist, zu 

sehen. 

Es ist z.B. an Abbildung 74 zu erkennen, daß bei dieser Analyse offensichtlich die 

Niederschlagsmengen, zumindest die mit Amplituden über 3, nicht erfaßt werden. Um diese 

Beobachtung genauer zu quantifizieren, wird eine andere Vergleichsmethode von Zeitreihe, die 

Korrelation verwendet. In Abbildung 80, in der die beobachteten Amplituden gegen die modellierten 

aufgetragen sind, läßt sich mit dem bloßen Auge eine Korrelation im Bereich der kleinen 

Niederschlagsmengen vermuten. Eine lineare Regression ergibt einen Korrelationskoeffizient von 

0.0849±0.0047. Wenn diese Untersuchung nur auf die Regentage beschränkt wird, indem aus dem 

Datensatz die Tage, an denen die beobachtete Zeitreihe Trockenheit liefert, entfernt werden, sinkt der 

Korrelationskoeffizient auf 0.0427±0.0047. Das heißt, schon rund 50% der Korrelationen werden nur 

dadurch erzeugt, daß die Trockentage niedriger als die Regentage modelliert wurden. Die reine 

Detektion von Trockentagen und somit natürlich auch von Nichttrockentagen scheint damit möglich. 

0.52 

0.1 

0.09 

0.08 

0.07 

0.06 

0.05 

0.04 

0.03 

0.02 

0.01 

0 

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 

Abbildung 78: Histogramm der logarithmierten Regenamplitude+1: 

Die Einteilung der Abszisse ist so gewählt, daß der erste Balken die Tage mit der Niederschlagsmenge 0 

enthält. Er ist zur besseren Skalierung der Grafik von 0.52 auf 0.1 abgeschnitten worden. 

92

1.8 

1.6 

(Quadratischer Fehler)*Häufigkeit 

1.4 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0 50 100 150 200 250 

Quadratischer Fehler 

Abbildung 79: Histogramm der quadratischen Fehler: 

Zur Berechnung dieser Grafik wurden die Differenzen zwischen gemessener und modellierter Regenzeitreihe 

(RBFS mit 63 konstanten lokalen Funktionen) im Testdatensatz berechnet. Diese Fehler wurden quadriert und 

deren Verteilung in Form eines Histogramms bestimmt. Jede Häufigkeit wurde mit dem dazugehörigen Fehler 

multipliziert und die Summe der Balkenhöhen auf 1 normiert. Durch diese Auftragung ist zu erkennen, wo das 

„größte Gewicht“ der Fehler liegt: Bei den großen Fehlern und somit bei den hohen Regenamplituden. 

Die Korrelation der Amplituden von rund 4% ist sehr gering. Es ist daher zu vermuten, daß die zur 

Verfügung stehenden Daten, die globalen pT-Werte, nicht ausreichen, um eine gute Modellierung der 

lokalen Amplituden zu ermöglichen. Da es sich bei dem Regenphänomen, um einen Phasenübergang 

handelt, erscheint dieses physikalisch plausibel. Die Kondensation des Wasser ist stark von lokalen 

Gegebenheiten (Kondensationskeimen etc.) abhängig und damit nur durch globale Information nicht zu 

erfassen. 

5 

4 

x-y-Plot 

P1 

3 

Modulierte Regenamplitude 

2 

1 

0 

-1 

-2 

-3 

0 2 4 6 8 10 

Gemessene Regenamplitude 

Abbildung 80: Korrelation von modellierter Regenamplitude und beobachteter Regenamplitude. 

Man erkennnt: Das Modell liefert nur für wenige Regentage eine negative Amplitude. Einige Trockentage 

werden als negative Regenamplitude modelliert. 

93

7.2.3 Übergang zu Trefferquoten 

Es hat sich im letzen Kapitel ergeben, daß der mittlere quadratische Fehler nicht geeignet ist, um die 

Vorhersage zu bewerten und die hohen Regenamplituden nicht gut moduliert werden können. Wie läßt 

sich trotzdem eine sinnvolle Analyse der Daten durchführen? 

Am wichtigsten ist es, die hohen Niederschlagsmengen in der Bewertung weniger zu wichten. Dieses 

läßt sich z.B. durch ein einfaches Abschneiden der hohen Werte erreichen. Es ist aber nicht eindeutig, 

bei welcher Schwelle dieses geschehen soll. Die Problematik dieser Schwellwerte wird in dem Kapitel 

7.2.5 über die Schwellwertvariation wieder aufgegriffen. 

Ein anderer Weg wird in einer gemeinsamen Arbeit mit Dr. G. Bürger [22] eingeschlagen. Dort wurde 

vorgeschlagen, die Verteilung der Regenamplituden in eine Normalverteilung zu transformieren und 

damit eine transformierte Fehlerfunktion zu verwenden. Auch in dieser Untersuchung zeigt sich, daß die 

Vorhersage der richtigen Niederschlagsmengen ein schwieriges Problem ist. 

Andererseits ist an den Grafiken ab Abbildung 74 zu erkennen, daß durchaus eine Ähnlichkeit zwischen 

Modell und Natur besteht. Um die oben genannten Probleme zu vermeiden, wird daher dazu 

übergegangen, reine Trefferquoten für die richtig erkannten Tage als Performanceindikator zu 

verwenden. Gestützt wird dieser Ansatz durch die Tatsache, daß schon 50% der Amplitudenkorrelation 

durch die Detektion der richtigen Trockentage erreicht wird. 

Es stellt sich dabei das Problem, daß die Modellzeitreihe sehr wenige wirkliche Trockentage mit 

Amplitude exakt oder kleiner als 0, enthält. Dieses liegt daran, daß nie kleinere Regenwerte als 0 ins 

Netzwerk eingespeist werden und durch die nicht eindeutige Relation zwischen globalen und lokalen 

Daten und durch den Fit des RBFS in Form der Minimierung des mittleren quadratischen Fehlers, nie 

oder nur für uncharakteristische Phasenraumpunkte (Ausreißer), Werte exakt oder kleiner als Null 

geliefert werden können. Es müssen daher schon Daten unterhalb einer positiven Grenze L als 

Trockentage definieren werden. Im Sinne einer echten Vorhersage, bei der keine Information aus der 

Zukunft des Prädiktors benutzt werden darf, wird diese Grenze L aus dem Trainingsdatensatz bestimmt 

und zwar so, daß sich hierbei maximale Treffer ergeben. Dieser gefunden Wert L wird dann auch für 

den Testdatensatz verwendet. Doch zuvor eine exakte Definition des Performanceindikators. 

Die Trefferquote TQ für eine Vorhersage ist mit T T und T R , der Anzahl der richtig modellierten Trocken 

T T bzw. Regentage T R , definiert als: 

(36) TQ T T + 

= 

Tage 

R 

Die Trefferquoten für die im letzten Abschnitt effektivsten RBFS sind in Tabelle 26 zu sehen. Beide 

Methoden liefern nicht nur ähnliche mittlere quadratische Fehler wie oben bestimmt, sondern auch 

ähnliche Trefferquoten. Sie liegt mit ca. 66% ca. 1% über der, die am PIK mit der Expanded- 

Downscaling-Methode (EDS) nach [21] bestimmt wurden. 

94

Methode Testdatensatz Trainingsdatensatz 

TQ [%] 

Optimaler 

Schwellwert L 

TQ [%] 

konstante lokale Funktionen, 63 Cluster 66.145 1.6143 65.811 

lineare lokale Funktionen, 1 Cluster 66.065 1.77959 65.711 

Tabelle 26: Trefferquoten 

Die berechneten kontinuierlichen Regenamplituden wurden mit Schwellwert L binärisiert. 

7.2.4 Downscaling der binären Niederschlagsereignisse 

Rückblickend läßt sich die bis jetzt durchgeführte Analyse folgendermaßen zusammenfassen: 

Das RBFS wurde als gewöhnlicher Datenfit verwendet, indem die Beziehung zwischen den globalen 

Zirkulationsmuster und den Potsdamer Regenamplituden mit einer kontinuierlichen Abbildung gefittet 

wurde. In einem zweiten Schritt ist der kontinuierliche RBFS-Output und ebenso die Originalzeitreihe 

durch eine Schwellwertanwendung binärisiert und anschließend miteinander verglichen worden. In 

dieser Vorgehensweite steckt implizit die Annahme, daß große Regenamplituden große 

Regenwahrscheinlichkeiten bedeuten. Diese trifft aber wie oben schon angeführt i.a. nicht zu. Speziell 

für großen Amplituden erscheint diese Annahme unsinnig und beeinflußt daher in einer ungünstigen 

Weise die Ausbildung des RBFS. 

Aus diesem Grund wird im folgenden auf die Amplitudeninformation ganz verzichtet und mit reinen 

Regen/Trocken-Aussagen gearbeitet. Zu diesem Zweck wird die Zeitreihen schon vor dem Einspeisen in 

das RBFS binärisiert, indem die Amplituden größer 0.05 (Meßgenauigkeit ist 0.1) auf 1 gesetzt werden. 

Nach dem Training des Netzes mit diesen Daten liefert das berechnete RBFS durch seine 

Interpolationseigenschaft natürlich wieder eine kontinuierliche Vorhersagezeitreihe im Bereich 0 bis 1. 

Diese wird nach der im vorigen Abschnitt erklärten Schwellwertmethode binärisiert. 

Diese Vorgehensweise entspricht einer Bayes-optimalen Klasseneinteilung, bei der eine kontinuierliche 

Variable (Regenamplitude) zwei Klassen (Trockenheit, Regen) zugeordnet werden soll. Der Fehler wird 

durch den Schwellwert minimiert, bei dem sich die Verteilungen (Abbildung 81) schneiden und 

entspricht der Schnittfläche beider Verteilungen (schraffierte Fläche). Die Grafik dient hier nur zur 

Visualisierung, der optimale Schwellwert wurde wegen der geringen Auflösung des Histogramms nicht 

aus diesem, sondern präziser direkt aus den Daten bestimmt. 

In Abbildung 82 ist dargestellt, wie die Lage des Schwellwertes die Trefferquote beeinflußt. Die Wahl 

des Schwellwertes ist nicht sehr kritisch: Obwohl die Kurve nicht monoton ist, sind die Sprünge 

aufgrund des 6000 Punkte langen Datensatzes nur sehr klein im Verhältnis zur groben Form der Kurve. 

Außerdem ist das Maximum sehr flach, so daß eine robuste Schwellwertbestimmung möglich ist. Es 

ergibt sich beim Trainingsdatensatz eine Trefferquote von rund 70% bei einem Schwellwert 0.48. 

95

In Tabelle 27 sind die Ergebnisse für einige Netzwerkstrukturen dargestellt. Es ergibt sich ein ganz 

ähnliches Bild wie bei der oben durchgeführten Analyse der kontinuierlichen Zeitreihe: Die einfachen 

Netzwerke liefern wieder die besten Ergebnisse. 

Sehr deutlich zeigt sich bei der Verwendung von lokal linearen Funktionen, wie gut sich RBFS Daten 

anpassen können. Bei der Verwendung von 16 Clustern steigt die Trefferquote beim Trainingsdatensatz 

auf 76%. Durch diese genaue Anpassung an die Trainingsdaten, wird allerdings nicht mehr Information 

über den generellen Zusammenhang zwischen globalen Daten und lokalem Regenereignis extrahiert, da 

sich der Fehler des Trainingsdatensatzes vergrößert. Diese Tatsache macht den Effekt des Overfittings 

deutlich und zeigt, daß der Zusammenhang - so wie er in der zur Verfügung stehenden Datenbasis 

vorliegt - keine komplizierte Struktur hat. D. h. nicht, daß der Zusammenhang wirklich einfach sein 

muß, sondern daß die eventuell regulären Beziehungen der Daten durch starke Irregularitäten 

(Rauschen, Nichtstationärität) überlagert sind, die nur effektiv durch Mittelung mit einfachen 

Netzwerkstrukturen herausgefiltert werden können. 

0.035 

0.03 

Regentage 

Trockentage 

0.025 

Häufigkeit 

0.02 

0.015 

0.01 

0.005 

0 

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 

Modullierte Amplitude 

Abbildung 81: Verteilung des Outputs vom RBFS mit 61 konstanten linearen Funktionen. 

Die Ausgabewerte des RBFS wurden für den Trainingsdatensatz nach den bekannten (gemessenen) 

Regen/Trockenereignissen in zwei Mengen geteilt. Für beide Mengen wurde getrennt ein 

Verteilungshistogramm des Outputs bestimmt. Die Balkensumme wurde auf 1 normiert. 

Bei den linearen RBFS liefern zwei lokale Funktionen mit einem Fehler von 70.5% eine kleine 

Verbesserung um rund 1% gegenüber einer einfachen lineare Funktion. Viele konstante lokalen 

Funktionen liefern kein wesentlich besseres Ergebnis (71% bei 61 Clustern). Damit wird durch die 

Binärisierung der Zeitreihe vor dem Fit eine relative Verbesserung der Trefferquote um rund 7% 

gegenüber der direkten Analyse der kontinuierlichen Zeitreihenanalyse von 66.1% erhalten. 

96

70 


P1 

65 

Trefferquote 

60 

55 

50 

45 

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 

Schwellwert 

Abbildung 82: Trefferquote des Trainingsdatensatzes in Abhängigkeit vom Schwellwert der Binärisierung 

(RBFS mit konstanten lokalen Funktionen und 63 Cluster) 

Methode Testdatensatz TQ [%] Trainingsdatensatz TQ [%] 

konstante lokale Funktionen 

52 Cluster 69.90 69.17 

57 Cluster 70.05 69.13 

61 Cluster (*) 71.01 70.07 

63 Cluster 70.37 69.90 

94 Cluster 69.71 70.62 

128 Cluster 69.60 71.31 

lineare lokale Funktionen 

1 Cluster 69.47 69.77 

2 Cluster (*) 70.50 70.75 

4 Cluster 70.00 71.47 

8 Cluster 67.96 72.92 

16 Cluster 66.23 76.33 

hierarchische lineare lokale Funktionen 

1 + 2 Cluster 70.58 70.75 

2 + 4 Cluster 69.97 71.43 

1 + 2 + 4 Cluster 70.00 71.43 

Tabelle 27: Trefferquoten für verschiedene Netzwerktypen 

7.2.5 Schwellwertvariation 

Im letzten Abschnitt wurde die Trefferquote um rund 5% durch den Verzicht auf die Regenamplituden 

verbessert. D.h. letztendlich wurde durch die Verwendung von weniger, aber offensichtlich der 

entscheidenden Information, ein besseres Ergebnis erzielt. Dies bestätigt, daß über die Amplitude wenig 

ausgesagt werden kann. Um diesen Sachverhalt genauer zu überprüfen, wird jetzt untersucht, wie gut 

die verschiedenen Regenamplituden separiert werden können. Zu diesem Zweck wird die gemessene 

Regenzeitreihe mit höheren Schwellwerten S binärisiert, d.h. zusätzliche Regenamplituden unter dem 

Schwellwert S auf Null gesetzt. Dies entspricht einer Erhöhung der Anzahl der Trockentage im 

Datensatz, wodurch sich die Verteilung der Regen/Trocken-Ereignisse vom schwierigsten Fall der 50:50 

Verteilung entfernt und die Vorhersage einfacher werden müßte. 

Um dieses zu kompensieren und ein Kriterium für die wirklich mehr extrahierte Information zu erhalten, 

wird die Trefferquote auf die Schwierigkeit der Aufgaben normiert. Es wird ein Performanceindikator, 

97

der als „true skill statistics“ bezeichnet wird, verwendet. Bei ihm werden die Trefferquoten separat für 

Trockenheit und Regen betrachtet und auf die Anzahl der Trockentage N T bzw. Regentage N R normiert. 

T TR 

(37) TSS = + −1 

N N 

TSS von 0 entspricht einem zufälligem Raten im Verhältnis N 

eine Antikorrelation hin. 

Schwelle Testdatensatz Trainingsdatensatz 

Regenhäufigkeit TQ TSS Regenhäufigkeit TQ TSS 

0.05 49.15 70.37 0.408 46.95 69.9 0.395 

0.15 45.91 69.01 0.372 42.35 70.25 0.377 

0.25 43.45 68.91 0.355 39.57 70.67 0.360 

0.35 40.82 69.20 0.347 37.52 71.47 0.365 

0.45 38.91 69.02 0.319 35.55 71.82 0.336 

0.55 36.87 68.70 0.309 34.17 72.28 0.342 

0.65 35.62 68.86 0.295 32.95 72.58 0.333 

0.75 34.46 69.28 0.300 31.67 72.85 0.329 

0.85 32.92 69.66 0.274 30.52 73.25 0.305 

0.95 31.72 70.85 0.199 29.47 73.77 0.216 

1.05 30.74 71.49 0.208 28.37 74.17 0.224 

1.15 29.68 72.10 0.204 27.53 74.72 0.223 

1.25 28.73 72.81 0.190 26.85 74.85 0.196 

1.35 27.96 73.05 0.176 26.13 75.30 0.194 

1.45 27.11 73.50 0.186 25.25 75.83 0.203 

1.55 25.89 74.62 0.105 24.28 76.62 0.113 

1.65 25.25 74.93 0.097 23.63 77.05 0.107 

1.75 24.27 75.92 0.106 22.92 77.75 0.115 

1.85 23.55 76.58 0.104 22.30 78.20 0.109 

1.95 22.86 76.98 0.113 21.82 78.68 0.125 

2.05 22.15 77.93 0.087 21.25 79.12 0.093 

Tabelle 28: Variation der Schwelle bei der Binärisierung der Regenzeitreihe 

T 

R 

T 

: N , und negative Werte deuten auf 

Die Ergebnisse der Schwellwertvariation sind in Tabelle 28 zu sehen. Beim Trainingsdatensatz steigt die 

normale Trefferquote, da sich die Aufgabe durch das Ungleichgewicht der Regen/Trockentage 

vereinfacht. Die TSS hingegen sinkt fast monoton. Beim Trainingsdatensatz fällt sogar die normale 

Trefferquote bis zum Schwellwert 0.95. Aus diesen Ergebnissen läßt sich schließen, daß die Separation 

von höheren Regenamplituden schwieriger ist als die bei 0.05 -oder physikalisch interpretiert- daß die 

Unterschiede im globalen Wettergeschehen bei Regenwetter geringer sind, als die zwischen Trockenheit 

und Regen (egal ob viel oder wenig). Dieses numerisch erhaltene Ergebnis ist im Einklang mit den 

Erfahrungen der Meteorologen. Aus diesen Überlegungen scheint es nicht sinnvoll zu sein, weitere 

Untersuchungen für mehr als zwei Klassen durchzuführen. 

R 

7.2.6 Informationsgehalt der pT-Daten 

Es hat sich in den vorigen Untersuchungen ergeben, daß die Amplituden nur ungenügend vorhergesagt 

werden können, es aber durchaus möglich ist, Aussagen über die Regenwahrscheinlichkeit zu erhalten. 

Diese Bestimmung des lokalen Wettergeschehens erhält man, wie noch einmal hingewiesen werden muß, 

nur durch die Verwendung von Informationen über globale, weit entfernten gemessenen pT-Muster. Der 

Zusammenhang zwischen den pT-Daten und den Regenwahrscheinlichkeiten ist zwar nicht sehr 

kompliziert, da ein oder zwei lineare Funktionen ausreichen um gute Ergebnisse zu liefen, trotzdem aber 

98

ist die Tatsache, daß hier eindeutige Korrelationen der unterschiedlichen physikalischen Größen über so 

große räumliche Skalen vorliegen bemerkenswert. 

In diesem Abschnitt sollen diese Korrelationen genauer untersucht werden. Insbesondere ist es wichtig 

zu wissen, ob tatsächlich der komplette Informationsgehalt der globalen Daten für eine Regenvorhersage 

nötig ist. Um diesen Sachverhalt zu klären, werden die 41-Kanäle, die schon durch Datenkompression 

erhalten wurden, durch eine erneute Hauptkomponentenanalyse und Projektion auf die größten 

Komponenten weiter reduziert. Für die so erhaltenen Datensätze wird wie oben die binäre Trefferquote 

bestimmt. Um die sich eventuell ergebenen Nichtlinearitäten besser erfassen zu können, wird hier das 

RBFS mit 63 lokalen konstanten Funktionen benutzt. 

Die Ergebnisse sind in Tabelle 29 dargestellt. Die Verwendung von nur einer Komponente liefert sehr 

wenig Information. Es wird fast immer Trockenheit vorhergesagt und es ergibt sich die geringe 

Trefferquote von rund 51% bei ca. 49% Regentagen im Testdatensatz. Bei 2 Komponenten erhöht sich 

die Trefferquote schon auf 58% und steigt dann weiter bis sie bei 33 Komponenten 70.9% erreicht, was 

bis zu dieser Stelle das beste Ergebnis darstellt. Die Verwendung weiterer Komponenten bringt keine 

verwertbare Information mehr ins System, sondern “irritiert“ im Gegenteil sogar das RBFS und 

verschlechtert damit das Ergebnis. 

Aus diesem Grund und der Sprünge in den Trefferquoten kann vermutet werden, daß einige 

Komponenten für die Regenvorhersage wichtiger sind als andere. Indem nur die wichtigen verwendet 

werden, könnte daher die Vorhersage verbessert werden. Allerdings ist die PCA nicht die richtige 

Methode, um diese Komponenten zu finden, da hier nur bzgl. der Richtungen mit den höchsten 

Streuungen analysiert wird. Diese Richtungen sind aber nicht unbedingt die Komponenten mit dem 

größten Informationsgehalt bzgl. einer guten Regenvorhersage. Daher werden die Korrelationen der 41 

Kanäle mit dem Regen direkt bestimmt. Dabei hat sich gezeigt, daß eine Korrelationsuntersuchtung mit 

der binärisierten Regenzeitreihe die besten Ergebnisse liefert. In Abbildung 83, in der die Korrelationen 

der Größe nach sortiert aufgetragen sind, ist eine Variation von 0.185 bis -0.094 zu erkennen. 

Die Kanäle sind dann nach dem Absolutbetrag der Korrelation umsortiert worden. In Tabelle 30 sind 

die Ergebnisse zu sehen, die sich ergeben, wenn mehr und mehr Kanäle in dieser Reihenfolge benutzt 

werden. Es ist zu erkennen, daß schon durch den Kanal 5 eine Trefferquote von ca. 61% erreicht wird. 

Sie steigt dann sehr schnell bis auf 69.5% bei erst 17 Kanälen. Durch den Vergleich von Tabelle 30 mit 

Tabelle 29 wird deutlich, daß sogar bis rund zur 30. Zeitreihe die Trefferquoten durch diese Sortierung 

höher liegen, also richtig nach Informationsgehalt sortiert worden ist. 

99

Anzahl der 

verwendeten 

Komponenten 

Trefferquoten 

für den 

Testdatensatz [%] 

Trefferquoten 

für den 

Trainingsdatensatz [%] 

1 51.31 53.79 

2 58.13 60.16 

3 59.27 61.16 

4 58.50 61.46 

5 59.17 61.76 

10 64.74 66.53 

15 65.43 66.77 

20 67.05 67.98 

25 67.53 67.51 

30 69.62 68.56 

31 69.67 69.36 

32 70.47 69.46 

33 70.87 69.11 

34 70.22 69.45 

35 70.71 69.46 

37 69.57 69.51 

40 70.44 69.66 

41 70.36 69.88 

Direkt ohne PCA 70.36 69.88 

Tabelle 29: Trefferquoten für verschiedene Hauptkomponenten 

0.2 

0.15 

0.1 

Korrelation 

0.05 

0 

-0.05 

-0.1 

0 5 10 15 20 25 30 35 40 45 

Nummer der Zeitreihe 

Abbildung 83: Korrelationen der binärisierten Regenzeitreihe mit den 41 pT-Zeitreihen sortiert nach fallender 

Korrelation. (Umsortierung nach Tabelle 30) 

100

Anzahl der 

Kanäle 

Zusätzlich 

benutzter Kanal 

Trefferquote 

(Testdatensatz) 

Trefferquote 

(Trainingsdatensatz) 

Clusteranzahl 

1 5 61.2629 62.7919 58 

2 2 60.9976 63.7091 56 

3 25 63.3324 64.3429 59 

4 21 63.6243 64.5931 60 

5 3 64.4203 65.0659 63 

6 12 64.9774 66.7278 64 

7 15 66.0653 67.1781 64 

8 33 67.1266 66.8446 64 

9 19 66.1714 67.1614 63 

10 36 65.8265 67.3616 64 

11 40 67.5511 67.7785 64 

12 17 67.3919 67.6951 64 

13 10 67.6572 67.1114 64 

14 29 67.2858 67.495 63 

15 1 68.3205 67.962 62 

16 6 68.294 68.1955 64 

17 4 69.4614 68.3456 64 

18 32 69.0634 68.3122 64 

19 14 69.3553 68.8125 64 

20 27 69.1695 69.3129 63 

21 24 69.3287 69.8299 62 

22 20 68.6389 69.5464 63 

23 41 69.0634 69.7131 63 

24 22 69.7267 69.2295 63 

25 18 69.9124 69.1294 61 

26 39 69.0369 69.7965 62 

27 8 69.0899 69.4963 63 

28 16 68.2144 69.0794 63 

29 26 69.1695 69.463 61 

30 23 68.692 69.4963 62 

31 9 68.9838 69.2795 62 

32 35 68.9573 69.5297 63 

33 31 68.9573 69.9133 62 

34 34 69.4349 69.7298 62 

35 7 69.1961 69.8299 62 

36 13 69.7533 69.6798 63 

37 38 70.0716 69.0127 62 

38 11 69.7002 69.7131 61 

39 30 69.7798 70.0634 62 

40 37 69.8328 70.6471 63 

41 28 70.3635 69.8799 63 

Tabelle 30: 

Trefferquoten bei Benutzung einer steigenden Anzahl der pT-Zeitreihen. Die globalen pT-Zeitreihen wurden 

nach Absolutbetrag der Korrelationen mit der binären Regenzeitreihe sortiert. 

7.2.7 Zeitliche Vorhersage 

Im vorigen Abschnitten wurde gezeigt, daß eine Korrelation zwischen dem momentan herrschenden pT- 

Muster und dem aktuellen Wetter in Potsdam besteht. Dieser Zusammenhang ist so stark, daß er 

ausgenutzt werden konnte, um das Auftreten des Regens in Potsdam mit ein Trefferquote von rund 70% 

zu prognostizieren. Diese räumliche Vorhersage (Downscaling) soll jetzt um die zeitliche Komponente 

erweitert werden. Es soll untersucht werden, ob allein aus den Wetterdaten der Vergangenheit auf die 

lokale Wetterentwicklung in der Zukunft geschlossen werden kann. Der Erfolg wird mit der 

Persistenzvorhersage verglichen, deren Ergebnisse in Tabelle 31 zu ersehen sind. Hierbei fällt die relativ 

hohe Trefferquote der 1-Schrittvorhersage von 64% auf, die durch die starke zeitliche Clusterung der 

Regen- und Trockenereignisse, speziell beim Trainingsdatensatz, verursacht wird. 

101

Vorhersageschritt 

[Tage] 

TQ des 

Testdatensatzes [%] 

TQ des 

Trainingsdatensatzes [%] 

1 64.5452 67.2721 

2 57.8738 59.0127 

3 54.5065 55.3557 

4 54.1335 53.7642 

5 53.7748 53.5387 

10 50.9259 52.3461 

Tabelle 31: Trefferquoten für die Persistenzvorhersage 

Bei der Vorhersage durch ein RBFS ergaben sich wieder für 2 lineare Funktionen die besten Ergebnisse 

(Tabelle 32). Für den Testdatensatz sind alle Ergebnisse besser als die der Persistenzvorhersage, wobei 

speziell die 3-Schrittvorhersage hierbei mit einem rund 5% besseren Ergebnis herausragt. Aber auch der 

hohe Wert der 1-Schrittvorhersage, der nur rund 3 % niedriger ist als die Trefferquote des reinen 

Downscaling, überrascht auf den ersten Blick. 

Physikalisch plausibel ist dieses Phänomen durchaus, da die globale Zirkulation der Vergangenheit die 

globale Situation der nächsten Tage bestimmt und somit das lokale Wetter in Potsdam verursacht. Das 

Wetter muß gewissermaßen erst in Potsdam “ankommen“. Diese zeitliche Korrelation reicht aber 

offensichtlich nicht weit, da die Trefferquoten bei der 2-Schrittvorhersage schon um 4.5% abfallen. 

Andererseits unterscheiden sich die Trefferquoten nicht extrem von denen der Persistenz, was sich in 

den Ähnlichkeiten der RBFS verschiedener Vorhersageschritte widerspiegeln sollte. In den letzen Zeilen 

der Tabelle 32 sind deshalb RBFS für die Berechnung anderer Vorhersageschritte als trainiert benutzt 

wurden. Es ist zu erkennen, daß ein 0-Schritt-RBFS (reines Downscaling) sich auch für die 1- 

Schrittvorhersage (bzgl. des Testsets) eignet. Allerdings ist ein 1-Schritt-RBFS wesentlich schlechter für 

die 0-Schrittvorhersage als das reine Downscaling-RBFS geeignet. 

Eine Kombination der verschiedenen Vorhersagesysteme durch die Benutzung mehrerer Tage der 

Vergangenheit (time-delay) erbrachte für den Testdatensatz nicht wesentlich bessere Ergebnisse. So 

ergab sich z.B. bei der 2-Schrittvorhersage und der Verwendung von zwei vergangenen Tagen: 

Trainingssatz 62.79%, Testsatz 64.48%. 

Vorhersageschritt [Tage] Trfferquote des Testsets [%] Trefferquote des Trainingssets [%] 

1 67.17 66.42 

2 62.61 63.32 

3 60.34 61.44 

4 59.03 60.66 

5 55.27 60.13 

10 53.35 59.42 

0 als 1 benutzt 66.96 64.68 

1 als 0 benutzt 68.83 68.78 

1 als 2 benutzt 63.90 62.41 

Tabelle 32: Trefferquoten für verschiedene Vorhersageschritte aus den pT-Mustern (RBFS mit 2. linearen 

Funktionen) 

102

Die Persistenzvorhersage liefert gute Ergebnisse, daher sollte die Verwendung der Information der 

vergangenen lokalen Regenwerte eine weitere Verbesserung bringen. 

Mit dieser Idee entfernt sich die Untersuchung weiter von der reinen Form des Downscalings, in dem 

auch die lokalen Observablen für die Vorhersage benutzt werden. In unserem Fall wird die 41- 

dimensionale pT-Zeitreihe durch den binären Regenereignisvektor ergänzt. Dabei kodiert 0 wieder 

Trockenheit, hingegen die 4 ein Regenereignis. Durch die Wahl diese Kodierung ergaben sich die besten 

Trefferquoten. Der Wert der Regenkodierung beeinflußt stark die Ausführung der Clusterung und damit 

die Positionierung der lokalen Funktionen im Phasenraum. Es bilden sich insbesondere bei der 

nichtlinearen Form und der Verwendung vieler Cluster, andere Subvorhersagesyteme für die 

verschiedenen Phasenraumbereiche. Durch einen großen Wert für Regen wird stärker bzgl. der 

vergangenen Regentage oder Trockentage separiert. Die Codierung der Regenereignisse bestimmt daher 

die Wichtung zwischen Persistenzvorhersage und der Vorhersage aus den globalen Daten. 

Durch diese Benutzung der lokalen Vergangenheit verbessern sich die Trefferquoten, speziell für die 

kurzen Vorhersageschritte, bei denen schon die Persistenz effektiv ist, erheblich und erreichen bei der 1- 

Schrittvorhersage fast das reine Downscaling, wie in Tabelle 33 sehen ist. 

Vorhersageschritt [Tage] TQ des Testdatensatzes [%] TQ des Trainingsdatensatzes [%] 

1 69.639 68.60 

2 63.562 64.53 

3 59.86 61.83 

4 59.21 60.83 

5 55.11 60.23 

10 53.86 59.35 

Tabelle 33: Trefferquoten für verschiedene Vorhersageschritte aus den pT-Mustern und den vergangenen 

binären Regenwerten (RBFS mit 2. linearen Funktionen) 

7.3 Untersuchung der Maximaltemperatur 


Der grobe Verlauf der Lufttemperaturen in Potsdam wird von den Schwankungen der 

Sonneneinstrahlung geprägt (Abbildung 89). Diese unterliegt einem Jahreszyklus und ermöglicht die 

grobe Form der Temperaturzeitreihe vor einer detaillierteren Downscaling-Untersuchung abzuschätzen. 

Damit wird einerseits durch die Vereinfachung der Vorhersage das RBFS “entlastet“ 40 und andererseits 

die rein statistische Untersuchung durch eine physikalisch begründete Modellierung ergänzt. 

In der Abbildung 84, in der die gleitenden 60 Tage Mittelwerte (MA60) der Trainingszeitreihe 

aufgetragen sind, können die Ähnlichkeit der Jahresgänge überprüfen werden. Die Verläufe variieren 

über die Jahre nicht sehr stark. Der Mittelwert des Trainingsdatensatzes (Abbildung 85) kann deshalb 

als Grobabschätzung des Jahresganges für den Trainingsdatensatz und den Testdatensatz verwendet 

103

werden. Diese Schätzung liefert eine mittlere quadratische Abweichung von der tatsächlich gemessenen 

Temperaturzeitreihe von 4.48 beim Testsatz und 4.43 beim Trainigssatz. 

30 

25 


P1 

30 

25 

P1 

P2 

P2 

20 

20 

15 

15 

Value 

10 

10 

5 

5 

0 

0 

-5 

0 50 100 150 200 250 300 350 400 

Time [d] 

-5 

0 50 100 150 200 250 300 350 400 

Abbildung 84: Alle MA60-Jahresgänge des 

Trainingsdatensatzes 

Abbildung 85: Mittlerer Jahresgang des 

Trainingsdatensatzes mit Streuungen 

7.3.2 Downscaling 

Für die TMAX-Zeitreihe sind verschiedene Methoden zum Downscaling getestet worden, deren 

Ergebnisse in der Tabelle 34 zu ersehen sind. Die Effizienz der Jahresgangmodellierung tritt beim 

Vergleich der Ergebnisse sehr deutlich zu Tage: Durch diese Vorverarbeitung wird der Fehler für den 

Netzwerktyp mit den besten Ergebnissen (211 Cluster) noch um ca. 30% verringert. 

Außerdem ist zu erkennen, daß die besten Ergebnisse wieder von einfachen Netzwerktypen geliefert 

werden. Das Optimum liegt bei den linearen Netzwerktypen bei 3 linearen Funktionen, mit einer in der 

ersten Schicht und zwei in der 2. Schicht, die sukzessiv gefittet werden. Durch Verwendung von mehr 

linearen Clusterfunktionen oder der gleichzeitigen Parameteroptimierung über alle Schichten wird der 

Fehler im Trainigsdatensatz weiter verringert. Dieses geschieht sehr effektiv und spricht wieder für die 

Fähigkeit der RBFS sich Daten anzupassen. Es wird aber zuviel an Information extrahiert, so daß sich 

die Vorhersage des unabhängigen Datensatzes verschlechtert. 

Allerdings kann der Fehler durch eine sehr feine Clusterung (211) und die Verwendung konstanter 

lokaler Funktionen, d.h. eine Erhöhung der Nichtlinearität des RBFS, auch im Trainigssatz leicht 

verringert werden. Allerdings steuert eine weitere Erhöhung der Auflösung wieder in Richtung 

Overfitting. 

Der Fehler der sich durch die Verwendung eines RBFS mit 211 Cluster ergibt (2.7021), ist um ca. 6% 

geringer, als der, den eine einfache lineare Funktion liefert (2.8640). Der Fehler ist um ca. 18% kleiner, 

als der mit EDS [21] erreichte. 

40 Große Variabilität ist nur durch viele Cluster zu erreichen. 

104

Jahresgangmod. 

Verfahren: 


Testdatensatz 

Trainingsdatensatz 

Ergebnisse vom PIK mit EDS 3.2912 3.3105 

Jahresgangmodullierung 4.7513 4.4307 

Lokale 

Funktionen 

Clusteranzahl 

Hierarchie 

ohne konstant 211 Blätter 3.2810 3.0451 

-MA60 konstant 128 Blätter 2.7032 2.6924 





-MA60 linear 1 1. Schicht 2.8640 2.9830 



-MA60 linear 3 1, 2. Schicht* 2.7207 2.7557 

-MA60 linear 5 2., 3. Schicht 2.8050 2.6670 

-MA60 linear 6 1, 2., 3. Schicht 2.8386 2.6061 

-MA60 linear 3 1 & 2. Schicht ** 2.7767 2.7121 

-MA60 linear 5 2 & 3. Schicht 2.8180 2.6191 

Tabelle 34: Mittlere quadratische Fehler der TMAX-Zeitreihe für verschiedene Verfahren. 

Das markierte Feld enthält den kleinsten Fehler im Testdatensatz. 

* 1. und 2. Schicht sukzessiv gefittet 

** 1. und 2. Schicht gleichzeitig gefittet 

35 

30 


P1 

P2 

25 

20 

Value 

15 

10 

5 

0 

-5 

-10 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

Abbildung 86: TMAX und Vorhersage (RBFS mit 211 konstante lokale Funktionen) 

105

7.3.3 Informationsgehalt der pT-Daten 

Wie bei der Untersuchung der Regenzeitreihe wird die Relevanz der einzelnen Komponenten der pT- 

Reihen für die Vorhersage bestimmt. An der Abbildung 87 ist zu erkennen, daß bis zur Komponente 20 

ein Großteil der Information erfaßt wird, aber die folgenden Komponenten den Fehler zwar langsam 

aber weiter verringern, so daß für eine optimale Vorhersage alle zur Verfügung stehenden Komponenten 

benutzt werden sollten. Der Fehler ist bei 41 benutzen Kanälen nahe an der Konvergenz, aber einige 

weitere Komponenten würden doch kleine Verbesserungen erbringen. Für die Untersuchung standen 

aber nicht mehr Datenreihen zur Verfügung. 

In Abbildung 88 ist die erste Hauptkomponente zusammen mit der TMAX-Zeitreihe aufgetragen. Es ist 

die wesentlich größeren Abweichungen gegenüber dem RBFS-Downscaling mit allen Komponenten zu 

erkennen, was deutlich macht, daß das RBFS vieler Eingabekanäle verrechnet. 

Bei der direkten Korrelationsuntersuchung ergab sich kein so klares Bild wie bei der Regenzeitreihe. Die 

erste Hauptkorrelierte (Abbildung 89) liefert zwar ein besseres Ergebnis als die 1. Hauptkomponente, 

aber für die Verwendung der weiteren Kanäle ist aber die PCA-Sortierung die bessere. 

4.6 

4.4 

P1 

4.2 

4 

Mitll. quadratischer Fehler 

3.8 

3.6 

3.4 

3.2 

3 

2.8 

2.6 

0 5 10 15 20 25 30 35 40 45 

Hauptkomponente 

Abbildung 87: Fehler in Abhängigkeit von der Anzahl der verwendeten Hauptkomponenten 

106

2.5 

2 


P1 

P2 

1.5 

1 

0.5 

Value 

0 

-0.5 

-1 

-1.5 

-2 

-2.5 

6000 6050 6100 6150 6200 6250 6300 6350 6400 

Time [d] 

Abbildung 88: TMAX und die 1. Hauptkomponente der pT-Reihen 

3 

2 


P1 

P2 

1 

Value 

0 

-1 

-2 

-3 

0 50 100 150 200 250 300 350 400 

Time [d] 

Abbildung 89: Über das erste Jahr des Trainingsdatensatzes sind TMAX (dicke Linie) und die am stärksten 

Korrelierte Zeitreihe der globale pT-Daten aufgetragen. Die Geradenstücke sind durch lineare Interpolation 

wegen der hier fehlenden Datenpunkten aus den umgebenden Werten berechnet worden. 

7.4 Untersuchung Wasserdampfdruckes 


Sie erfolgt analog zur Untersuchung der Maximaltemperaturen durch Subtrahieren des gleitenden 

Mittelwertes über 60 Tage. Diese Vorverarbeitung ist hier nicht ganz so effizient, wie man an Tabelle 

35 ersehen kann. Speziell beim Trainingsdatensatz ist der Unterschied gering. 

107

7.4.2 Downscaling 

Auch hier zeigen wieder die einfachen linearen RBFS die besten Ergebnisse. Ein Optimum wird mit 3 

linearen Funktionen und einem mittleren quadratischen Fehler von 1.62 erreicht. Allerdings liefert hier 

der nichtlineare Ansatz mit 211 konstanten Funktionen das um rund 4% bessere Ergebnis von 1.56. Die 

Unterschiede der beiden Verfahren sind exemplarisch durch den Vergleich von Abbildung 90 mit 

Abbildung 91 zu erkennen. Nichtlineare RBFS scheinen einige Extremausschläge (große Abweichungen 

vom Jahresgang) besser zu erfassen. 

Der Fehler der sich durch die Verwendung eines RBFS mit 211 Cluster ergibt (1.5594), ist um ca. 5% 

geringer, als der, den eine einfache lineare Funktion liefert (1.64). Der Fehler ist um ca. 12% kleiner, als 

die mit EDS erreichte. 

20 

18 


P1 

P2 

16 

14 

Value 

12 

10 

8 

6 

4 

6000 6050 6100 6150 6200 

Time [d] 

Abbildung 90: HPR beobachtet (fett) & Vorhersage mit 211 konstanten RBF. 

20 

18 


P1 

P2 

16 

14 

Value 

12 

10 

8 

6 

4 

6000 6050 6100 6150 6200 

Time [d] 

Abbildung 91: HPR beobachtet (fett) und Vorhersage mit 2 linearen Funktionen 

108

Jahresgang 

Verfahren 


Testdatensatz 

Trainingsdatensatz 

Ergebnisse vom PIK mit EDS 1.779 1.705 

Lokale 

Funktionen 

RFS (Probit) 1.666 1.609 

Nur Jahresgang 2.2047 2.1520 

Clusteranzahl 

Hierarchie 

ohne konstant 211 Blätter 1.5859 1.3918 









-MA60 konstant 211 alle global 1.5865 1.2215 




-MA60 linear 3 1, 2. Schicht* 1.6254 1.4837 

-MA60 linear 5 2., 3. Schicht 1.6418 1.4391 

-MA60 linear 6 1, 2., 3. Schicht 1.6425 1.4393 

-MA60 linear 3 1 & 2. Schicht ** 1.6361 14636 

-MA60 linear 5 2 & 3. Schicht 1.6766 1.4067 

-MA60 linear 5 1&2&3. Schicht 1.6862 1.3955 

Tabelle 35: Mittlere quadratische Fehler der HPR-Zeitreihe für verschiedene Verfahren 

Das markierte Feld enthält den kleinsten Fehler im Testdatensatz. 

* 1. und 2. Schicht sukzessiv gefittet 

** 1. und 2. Schicht gleichzeitig gefittet 

7.4.3 Zeitliche Vorhersage 

Die Wasserdamfdruckzeitreihe soll zeitlich vorhergesagt werden. Dabei wird wieder von der 

Vormodellierung des Jahresganges ausgegangen, da diese, bei dem reinen Downscaling gute Resultate 

lieferte. 

In der Tabelle 36 sind die Ergebnisse für verschieden Verfahren zusammengefaßt. Verglichen wird mit 

der Persistenzvorhersage. Ab dem zweiten Vorhersageschritt ist diese allerdings durch die starken 

109


des Testdatensatzes 


des Trainingsdatensatzes 

Fluktuationen dieser Observablen schlechter ist als die reine Jahresgangmodullierung, so das hiermit 

verglichen werden muß. 

Bei den lineare RBFS zeigen sich bei der Verwendung von 2 linearen lokalen Funktionen die besten 

Ergebnisse. Sie liefern ab dem 2. Vorhersageschritt wesentlich bessere Resultate als die 

Persistenzvorhersage. Durch die Verwendung sehr vieler konstanter lokaler Funktionen (422) läßt sich 

auch bei der 1-Schrittvorhersage die Persistenz übertreffen. Bei allen untersuchten Vorhersageschritten, 

ergeben sich bessere Ergebnisse als die Jahresgangsabschätzung liefert. 

In der vierten Fehlerspalte der Tabelle 36 sind für die Vorhersage auch die vergangenen lokalen HPR- 

Daten aus Potsdam benutzt worden. Der Fehler verringert sich dadurch speziell für die kleine 

Vorhersageschritte (1 und 2) erheblich und ist wesentlich kleiner als der der Persistenzvorhersage. D.h., 

gerade die Kombination der lokalen Daten (ermöglicht Persistenz) und der globalen Daten (liefert 

dynamische Zusammenhänge) und die Ausnutzung deren Korrelationen liefert eine viel bessere 

Prädiktionsbasis als diese Daten für sich alleine. Dieser Vorteil wird speziell beim Vorhersageschritt 1 

deutlich (Abbildung 92). 

Bei den größeren Vorhersageschritten gleichen sich die drei Verfahren an, das RBFS geht fast in eine 

Null-Abbildung über und die Vorhersage mündet in einer Jahresgangsmodullierung mit kleinen 

Ausschlägen, die oft in die falsche Richtung zeigen (Abbildung 93). 

Vorhersage 

-schritt 

Persistenzvorhersage 

RBFS mit 

2 linearen. 

Funktionen 


konst. Fkt. 

(Clusteranzahl) 

RBFS mit konst. 

Funktionen * 


Persistenzvorhersage 


2 linearen 

Funktionen 


konst. Fkt. 


RBFS mit konst. 

Funktionen * 


[Tage] 

1 1.7411 1.80 1.72 (422) 1.48 (422) 1.60 1.64 1.46 (422) 1.25 (422) 

2 2.34 1.93 1.90 (422) 1.84 (263) 2.22 1.80 1.63 (422) 1.66 (263) 

3 2.57 2.04 2.02 (94) 2.00 (211) 2.49 1.91 1.91 (94) 1.83 (211) 

4 2.68 2.09 2.08 (94) 2.06 (94) 2.65 1.97 1.97 (94) 1.96 (94) 

5 2.76 2.13 2.13 (94) 2.11 (63) 2.74 2.01 2.01 (94) 2.03(63) 

Tabelle 36: Mittlerer quadratischer Fehler der HPR-Vorhersage für verschiedene Vorhersageschritte und 

Verfahren 

Bei allen Verfahren wurde aus dem Trainingsdatensatz der Jahresgang abgeschätzt. Ausgehend von dieser 

Vormodellierung wurden nur die Differenzen zum Jahresgang trainiert. Die Persistenzvorhersage bezieht sich 

auch auf diese Differenzen. Der Fehler ist aber für Differenzen der tatsächlichen Zeitreihen inclusive 

Jahresgang bestimmt worden. Die Jahresgangsabschätzung ergibt einen Fehler von 2.20 beim Test- bzw. 2.15 

beim Trainingsdatensatz für die 0-Schrittvorhersage. Die Verwendung dieser Abschätzung als die 1-5- 

Schrittvorhersage liefert annähernd den gleichen Fehler. 

* Hier wurden zusätzlich die lokalen HPR-Werte für die Vorhersage benutzt. 

110

20 

18 


P1 

P2 

16 

14 

HPR 

12 

10 

8 

6 

4 

6000 6050 6100 6150 6200 

Time [d] 

Abbildung 92: HPR beobachtet (fett) und die 1-Schrittvorhersage unter Benutzung der vergangenen pT-Daten 

und dem vergangenen HPR-Wert mit 422 konstanten lokalen Funktionen. 

20 

18 


P1 

P2 

16 

14 

HPR 

12 

10 

8 

6 

4 

6000 6050 6100 6150 6200 

Time [d] 

Abbildung 93: HPR beobachtet (fett) und 5-Schrittvorhersage unter Benutzung der vergangenen pT-Daten und 

dem vergangenen HPR-Wert mit 63 konstanten lokalen Funktionen. Der mittlere quadratische Fehler von 2.11 

liegt nahe den dem der Jahresgangmodullierung von 2.20. 

111


Untersuchung des Niederschlages: 

• Das Downscaling der Amplituden ist fast nicht möglich. 

• Die Bestimmung der Regen/Trockenereignisse aus der kontinuierlichen Regenzeitreihe liefert mit 

einer Trefferquoten von rund 66% ein um 1% besseres Ergebnis als das vom PIK mit EDS 

bestimmte. 

• Das Downscaling der reinen Regen/Trockenereignisse erreicht eine Trefferquote von 70%. 

• Nichtlineare Funktionen liefern nicht wesentlich bessere Ergebnisse als eine lineare Funktionen. 

• Rund 20, der mit dem Regen stark korrelierten globalen Zeitreihen, enthalten ausreichende 

Information für das Downscaling. 

• Die zeitliche Vorhersage unter Verwendung der globalen Daten liefert bessere Ergebnisse als die 

Persistenzvorhersage. 

• Die 1-Schrittvorhersage unter Mitbenutzung der lokalen Regenvergangenheit erreicht fast die 

Ergebnisse des Downscalings. 

• Die zeitliche Vorhersage wird durch die Verwendung von globalen Daten, die länger als einen Tag 

zurückliegen, nicht verbessert. 

Untersuchung der Maximaltemperatur: 

• Durch nichtlineare Funktionen läßt sich das Downscalingergebnis um rund 6 % verbessern. 

• Die Ergebnisse sind um rund 18% besser, als die die mit EDS erreicht wurden. 

• Alle 41 Hauptkomponenten enthalten für das Downscaling wichtige Information. Die Zeitreihen mit 

den größten Varianzen sind am wichtigsten. 

Untersuchung des Wasserdampdruckes: 

• Durch nichtlineare Funktionen läßt sich das Downscalingergebnis um rund 5 % verbessern. 

• Die Ergebnisse sind um rund 12% besser, als die die mit EDS erreicht wurden. 

• Die zeitliche Vorhersage des RBFS unter Verwendung der globalen Daten ist ab dem zweiten Tag 

besser als die Persistenzvorhersage. 

• Die zeitliche 1-Schrittvorhersage unter Mitbenutzung der lokalen Regenvergangenheit ist um ca. 

34% besser als die Persistenzvorhersage. 

112

8 Zusammenfassung 

In dieser Arbeit wurde mit statistischen Methoden die Dynamik von vier natürlichen dynamischen 

Systemen durch die Auswertung ihrer beobachtbaren Systemgrößen untersucht. Die in dieser Arbeit 

verwendeten Observablen stellen nur einen Teil der am ganzen System beteiligten Größen dar, sie 

bildeten jedoch die Basis für die statistische Analyse, wodurch sich die Qualität der Daten 41 wesentlich 

auf die Ergebnisse auswirkt. Dieses zeigt sich darin, daß bereits bei dem Einsatz einfacher Methoden die 

Grenze der Auswertung erreicht war, da die Definition komplexerer Zusammenhänge nur dazu führte, 

daß die Trainingsdaten besser approximiert wurden (vgl. Kap. 6 zum Peruansiche Auftriebsgebiet und 

Kap. 7 zur Analyse der Wetterdaten). Es ist daher nicht zu erwarten, daß mit rein statistischen 

Methoden wesentlich bessere Ergebnisse zu erreichen sind. 

Bei der Untersuchung des Kirchroder Bohrkernes (Kap. 5) wurden Frequenzen, die mit den typischen 

Milankovitch-Frequenzen übereinstimmen, gefunden. Eine genauere Bewertung der Ergebnisse war 

nicht möglich, da die Milankovitch-Frequenzen schwanken und nicht bekannt ist, welche exakten 

Frequenzen zu der Zeit in der der untersuchten Bohrkernabschnitt entstand, vorlagen. 

Die detaillierten Ergebnisse der einzelnen Untersuchungen sind in den einzelnen Kapiteln nachzulesen. 

Die Gemeinsamkeiten und die Unterschiede der vier Analysen lassen sich wie folgt beschreiben: 

A: Bewertung des Datenumfangs für die einzelnen Untersuchungen: 

1. Der Datenbestand für die Staubanalyse kann um rund ca. 50% reduziert werden. Mit der Analyse 

von 20 Elementen lassen sich Ergebnisse erreichen, die denen mit 41 Elementen entsprechen. 

2. Der Datenbestand des Kirchroder Bohrkernes ist bzgl. seines Umfanges und seiner Qualität 

ausreichend um die Milankovitch-Zyklen zu finden. Durch die Einschränkung der Untersuchung auf 

das Tiefenintervall [-100..-40] m, das in der Arbeit von V.E. Rachold bearbeitet wurde, erhält man 

einen Abschnitt mit konstanter Sedimentationsrate und somit die notwendige Bedingung für eine 

Frequenzanalyse. Eine Erweiterung der Untersuchung auf das Tiefenintervall [-150..-43] lieferte 

ähnliche Frequenzen, so das daraus geschlossen werden kann, das auch in dem erweiterten Intervall 

konstante Sedimentation herrschte. 

3. Der Datenbestand für das peruanische Auftriebsgebiet, ist für eine statistische Analyse nicht 

ausreichend. Er ist nicht Mittelwert-, Varianz- und Korrelationsstationär. Mit verschieden Filtern 

lassen sich zwar in der Zeitreihe einige wenige regelmäßige Strukturen erkennen, diese treten aber 

zu selten auf, um sie statistisch auswerten zu können. Durch den Phasenübergang des Biosystems in 

41 genügend großer Datenumfang, große Korrelationen in den Daten, geringer Rauschanteil, Stationärität der Zeitreihen 

113

den Jahren 1972/73 liegen außerdem vor und nach diesem Ereignis zwei voneinander abweichenden 

Datensätze vor. 

4. Für die Downscalinguntersuchung standen Daten von täglichen Werten über 27 Jahre zur 

Verfügung. Für das Downscaling der Regenereignisse genügen nur 20 der 41 pT-Zeitreihen. Für die 

anderen untersuchten Observablen ergaben sich mit 41 Zeitreihen die besten Resultate. Noch mehr 

Zeitreihen könnten eventuell die Ergebnisse verbessern. 

In der zeitlichen 1-Tagesvorhersage, kann diese hier durchgeführte Untersuchung 

(Regentrefferquote von 70%) nicht mit den Vorhersagen der Meteorologen (Regentrefferquote von 

90%) konkurrieren. Diese hohen Trefferquoten werden von den Meteorologen allerdings mit einer 

anderen Datenbasis erreicht. Es werden z.B. aus Satellitenbildern die Bewölkungsfelder ausgewertet 

und viele andere aktuelle meteorologische Größen von Wetterstationen benutzt. Der hier benutzte 

Datensatz enthielt dagegen lediglich (komprimierte) Druck- und Temperaturwerte, die aus einem 

Modell gefittet wurden. 

B. Korrelationen, Hauptkomponenten, Kompression in den einzelnen Untersuchungen 

1. Bei der Staubanalyse wurde versucht, Komponenten zu entkorrelieren, d.h. die Daten in eine Basis 

zu transformieren, in der sie möglichst orthogonal zueinander stehen. Außerdem wurden fast 

parallele Vektoren zusammengefaßt. Die PCA diente dazu, die Lösung robuster gegenüber 

Meßfehlern zu machen. Korrelationsuntersuchungen der Stoffe oder der Elemente untereinander 

spiegeln die bekannten chemischen Zusammenhänge wieder. 

2. Mit der Projektion von 7 chemischen Komponenten des Kirchrodebohrkernes auf die erste 

Haupkomponente wurden bessere Ergebnisse bei der Detektion der Milankovitch-Zyklen erreicht. 

Allerdings lieferte auch alleine die TOC-Zeitreihe (Indikator für die biologische Aktivität) gute 

Übereinstimmungen mit den Milankovitch-Zyklen. 

3. Die Korrelationsuntersuchung der Tierbestände von der peruanischen Küste spiegelt die 

biologischen Zusammenhänge teilweise wieder. Diese Korrelationen konnten jedoch nicht genutzt 

werden, um die Vorhersage zu verbessern, da die anderen Zeitreihen ebenso wie die Anchoveta- 

Zeitreihe nicht stationär ist. 

4. Für die Downscaling-Untersuchung lagen komprimierte Daten vor. Eine weitere Kompression 

verschlechterte das Ergebnis. Bei der Regenvorhersage ergaben die ersten 30 Hauptkomponenten 

schon Trefferquoten von 69%. Die 20 Hauptkorrelierten lieferten allerdings auch schon 69% 

Treffer. Die Verwendung aller Komponenten erhöhte die Trefferquote nur um ein 1%. 

114

C. Beurteilung der Methoden 

1. Bei der Staubanalyse erbrachte die aufwendige Transformation der Daten und die des LGS eine 

Robustheit der Lösung gegenüber Meßfehlern. 

2. Bei der Bestimmung der Milankovitch-Zyklen stellte sich die Frequenzbestimmung nach der 

Maximum-Entropie-Methode als das beste Verfahren heraus. 

3. Bei der Analyse der peruanischen Daten wurden sehr viele Versuche unternommen um gute 

Vorhersagen zu erreichen. Verbesserte Filter und große RBFS lieferten jedoch immer nur bessere 

Ergebnisse im Trainingsdatensatz. 

4. Beim Downscaling der Regenereignisse ergab die nichtlineare Modellierung nicht wesentlich bessere 

Ergebnisse als die lineare Modellierung. Die Modellierung des Jahresganges war bei der 

Untersuchung der Maximaltemperatur und dem Wasserdampfdruck effektiv. Bei der 

Maximaltemperatur- und der Wasserdampfdruckuntersuchung ergaben sich rund 5% bessere 

Ergebnisse durch nichtlineare Methoden. 

Die Ergebnisse lassen sich wie folgt zusammenfassen: 

1. Die Zusammensetzung der Stäube ist in Tabelle 17 nachzulesen. Es fällt auf, daß rund 50% Prozent 

der Luftstäube vom Autoverkehr verursacht werden. Die Ergebnisse für Bremsabrieb und 

Benzinfeststoffemission sind nicht eindeutig. Es ergeben sich unterschiedliche Konzentrationen bei 

der Analyse mit und ohne Stoffkomposition. 

2. Die Milankovitch-Zyklen sind bis auf den 400-ka-Zyklus sehr gut detektiert worden. Es ist 

anzunehmen, daß auch im erweiterten Tiefenintervall von -150 m bis -43 m konstante 

Sedimenationsrate herrschte. 

3. Die Vorhersage des Ökosystems Peruanisches Auftriebsgebiet ist nicht gelungen. Durch die 

Anwendung eines Filters lassen sich jedoch wiederkehrenden Strukturen mit einer Periode von 2 

Jahren finden, die sich sogar im hinteren Teil der Zeitreihe nach dem El Nino-Ereignis wiederholen. 

Zur Bearbeitung dieses Problems müssen entweder mehr Daten zur Verfügung stehen oder das 

Modell muß um biologisches Wissen erweitert werden. 

4. Das Downscaling der Regenereignisse liefert ein rund 5% besseres Ergebnis, als das mit EDS 

bestimmte. Die Verwendung des RBFS liefert für die Maximaltemperatur- und 

Wasserdampfdruckuntersuchung bessere Ergebnisse als das Downscaling mit einer einfachen 

linearen Funktion. Diese Ergebnisse sind wesentlich besser als die, welche mit EDS bestimmt 

wurden. 

Die Vorhersage der Regenereignisse und des Wasserdampfdruckes sind insbesondere für kleine 

Vorhersageschritte wesentlich besser als die Persistenzvorhersage. 

115

9 Anhang 

9.1 Arbeiten mit „Data-Stream-Network“ 

In diesem Abschnitt wird an drei Anwendungsbeispielen der Umgang mit dem Programm und einigen 

Algorithmen erklärt. Die Menübefehle sind durch folgenden Schriftstil hervorgehoben: 0HQ SXQNW 

Beispiel 1: Sonnenfleckendaten 

1. Start 

In Abhängigkeit von der Konfiguration sind nach dem Start des Programmes 1-3 Fenster zu 

sehen. Das Script- und das Debugfenster benötigen Sie jetzt noch nicht. Mit :LQGRZ'HEXJ bzw. 

:LQGRZ6FULSW lassen sie sich entfernen (Fenster bitte nicht mit dem Windowmanager schließen). 

Diese Einstellungen sowie Fenstergröße und -position können Sie für den nächsten 

Programmstart mit 2SWLRQV6DYH *HRPHWU\ speichern. 

2. Einfügen eines Algorithmus 

Wählen Sie /RDG7LPVHULH. Durch ein Klicken mit der Maus auf die Arbeitsfläche werden zwei 

Icons eingefügt. Das große stellt den Zeitreihenlade-Algorithmus und das kleine die Zeitreihe 

dar. Sie können die Icons mit der Maus nach der üblichen tag-move-and-drop-Methode beliebig 

auf dem Desktop anordnen. 

3. Laden einer Zeitreihe 

Jeder Algorithmus besitzt Parameter, die eingestellt werden können. Für den Zeitreihenlade- 

Algorithmus muß der Dateiname angegeben werden. Klicken Sie mit der rechen Maustaste auf 

das Icon und stellen Sie in der Dialogbox den Dateinamen „tsa/data/sunspot/sonne.ts“ ein. 

Durch einen Doppeklick mit der Maus auf eines der beiden Icons wird die Datei symbolisch von 

der Festplatte in das kleine Zeitreihen-Icon geladen. Sie erkennen dieses daran, daß sich die 

Schattenfarben des Icons zu grün verändert. 

4. Löschen von Dateninhalten 

Markieren sie den Datenknoten und drücken Sie auf die Space-Taste. Die Zeitreihe wird 

gelöscht und der Schatten färbt sich grau. Dieser Schritt ist normalerweise nicht nötig. Nur 

wenn Sie das Netzwerk speichern wollen und z.B. zum Transport die Dateigröße verringern 

wollen ist er sinnvoll. Aktualisieren Sie den Datenknoten wieder mit einem Doppelklick. 

5. Standardgrafik 

Wenn Sie den Datenknoten markieren und 1RGH*UDSKLFV wählen, wird ein Grafikfenster mit der 

Darstellung der Zeitreihe geöffnet: Sie erkennen die periodischen Strukturen der Zeitreihe. 

6. Verknüpfen von Algorithmen 

Sie möchten jetzt das Frequenzspektrum in der Zeitreihe untersuchen. Fügen Sie dazu den 

116

Algorithmus )UHTXHQF\))7 ein. Schieben Sie den Input-Datenknoten (auf der linken Seite) auf die 

Zeitreihe des anderen Algorithmus. Die Datenknoten werden dadurch miteinander verbunden. 

7. Frequenzanalyse 

Wenn Sie jetzt auf auf den Ausgabeknoten der FFT doppelklicken, wird die Berechnung 

gestartet. Drücken Sie die Taste „g“ als Abkürzung für 1RGH*UDSKLFV und das Leistungsspektrum 

der Sonnenfleckenzeitreihe wird dargestellt. Für viele Menübefehle existieren Shortcuts in Form 

von Buttons am linken Fensterrand oder Tastaturkürzel. Die Bedeutung der Buttons wird am 

unteren Fensterrand angezeigt, wenn Sie mit der Maus auf den Button zeigen. Die 

Tastaturkürzel sind in den Menüs zu sehen. 

8. Plotalgorithmus des Frequenzspektrums 

Fügen Sie *UDSKLFV)RXULHUVSHF ein und verbinden Sie die beiden Fourierspektren. Mit dem neuen 

Algorithmus können Sie die grafische Darstellung des Spektrums genau an Ihre Bedürfnisse 

anpassen. Durch ein Klicken mit der rechen Maustaste auf den Plotalgorithmus wird eine 

Dialogbox geöffnet in der Sie die Parameter einstellen können. Durch den Hilfeknopf werden 

Einstellungsmöglichkeiten erklärt. 

Stellen Sie z.B. yLogsScale=0 und Powerplot=0 ein. Schließen Sie die Dialogbox mit OK ab 

(oder Taste Return) und doppelklicken Sie auf das Icon (oder Taste Return) und Sie erhalten 

eine Grafik des Spektrums mit Real- und Imaginärdarstellung. 

9. Inverse FFT 

Fügen Sie )UHTXHQF\))7A ein und verbinden Sie die Spektren-Icons. 

10. Plotalgorithmus einer Zeitreihe 

Sie wollen jetzt die originale Zeitreihe und die rücktransformierte miteinander vergleichen. 

Fügen Sie *UDSKLFV7LPHVHULH ein und verbinden Sie die originale Zeitreihe mit der Inputzeitreihe 

des Plotalgorithmus. Der Plotalgorithmus arbeitet mit einer einstellbaren Anzahl von 

Eingabedatenknoten. Markieren Sie ihn und wählen Sie 1RGH$GG ,QSXWGDWDQRGH (oder Taste Insert). 

Der Algorithmus enthält ein zusätzliches Input-Icon, das Sie jetzt mit der rücktransformierten 

Zeitreihe verbinden sollten. Durch einen Doppelklick auf den Plotalgorithmus werden beide 

Zeitreihen grafisch ausgegeben. Sie liegen übereinander, so daß sie nur eine Kurve erkennen. 

Um Sie zu unterscheiden, können Sie im Plotalgorithmus Format=0 2 setzen, wodurch die 

zweite Zeitreihe im Stil „Linien mit Punkten“ gedruckt wird. Diese Formatvariable ist ein 

Integerarray aus dem die Elemente zyklisch gewählt werden. Falls mehr Zeitreihen geplottet 

werden als Formate angegeben sind wird wieder mit dem ersten Arrayelement begonnen. Fast 

alle Stilformate werden zyklisch benutzt. (Æ Hilfetext) 

11. Trennen von Verbindungen 

Markieren Sie die Verbindung zwischen dem FFT^-1- und seinem Input-Icon. Drücken Sie die 

117

Delete-Taste. Die Verbindung wird gelöscht und der Algorithmus wieder mit einen Input-Icon 

versehen. 

12. Bandfilter 

Fügen Sie )UHTXHQF\%DQGILOWHU ein und bauen Sie diesen Algorithmus zwischen die erzeuge Lücke 

im Datenfluß ein. Falls zu wenig Platz ist, können Sie mehre Icons gleichzeitig verschieben, 

indem Sie sie mit einen Fangrechteck markieren (linke Maustaste auf leere Stelle des Desktops 

und Maus bewegen). Stellen Sie im Filter MaxFreq=0.05 und schauen Sie sich mit 

Zeitreihenplotalgorithmus das Ergebnis an. 

13. Speichern des Netzes 

Durch )LOH6DYH DV können Sie das Netz speichern falls es noch keinen Dateinamen hat, durch 

)LOH6DYH $OO im anderen Fall. Geben Sie bitte immer einen Datenamen mit der Endung „.net“ ein. 

Beispiel 2: Phasenraumplot der Henon-Abbildung 

1. Neue Datei anlegen 

Mit )LOH1HZ können Sie den Desktop vollständig leeren. 

2. Erzeugung der Henon-Zeitreihe 

Fügen Sie *HQHUDWH+HQRQ ein und schauen Sie sich die Zeitreihe an. Der Algorithmus generiert in 

der Standardeinstellung eine 1-dimensionale Zeitreihe. 

3. Timedelay 

Fügen Sie 3KDVHVSDFH7LPHGHOD\ ein und verbinden Sie die Zeitreihen. Aktualisieren Sie den letzen 

Datenknoten und schauen Sie sich die grafische Ausgabe an. Sie sehen zwei Zeitreihen, die um 

einen Zeitschritt verschoben sind. Durch die Parameter des Timedelay-Algorithmus können 

viele Varianten der Timedelay-Methode eingestellt werden. 

4. Phasenraumplot 

Verbinden Sie die 2-dimensionale Zeitreihe mit einem Zeitreihenplotalgorithmus und stellen Sie 

dort ein: 

GeneralStyle 2 x(t)-y(t)-Plot (statt x(t)-Plot) 

xTimeser 1 

Die Daten für die x-Achse werden aus 1.Inputzeitreihe des 

Plotalgorithmus genommen. (In diesem speziellen Fall gibt es nur eine 

Inputzeitreihe) 

yTimeser 1 Daten für y-Achse auch aus 1. Inputzeitreihe 

xChannel 1 Daten für x-Achse aus Kanal 1 (der xTimeser) 

yChannel 1 Daten für y-Achse aus Kanal 2 (der yTimeser) 

Format 1 Nur Punkte ohne Verbindungslinien 

Sie erhalten die 2-dimensionale Darstellung des Henon-Attraktor. Wenn Sie jetzt im 

118

Henongenerator z.B Size=10000 und im Zeitreiheplot, Point=0 (nur Pixel) einstellen, erhalten 

Sie eine dichte Darstellung des Attraktors. 

5. Histogramme 

Wählen Sie 7LPHVHU+LVWRJUDP und verbinden Sie die Inputzeitreihe mit der generierten Henon- 

Zeitreihe. Die Verteilung der Daten können Sie durch Markierung des Histogramms und 

drücken der Taste „g“ erhalten. Sie können durch die Parameter auch Histogramme mit höherer 

Auflösung einstellen. 

Beispiel 3: Vorhersage der Henon-Abbildung mit einem neuronalen Netzwerk 

1. Zeitverschiebung 

Sie wollen jetzt ein neuronales Netzwerk an einem Datensatz der Henon-Zeitreihe trainieren und 

das Netz anschließend für eine Vorhersage benutzen. Sie können dazu das Netz des vorigen 

Beispiels wieder verwenden. Fügen Sie 7LPHVHU6KLIW 7LPH ein und verbinden Sie den Input mit der 

generierten 1-dim Henonzeitreihe. In der Standarteinstellung des Algorithmus wird die Zeitreihe 

einen Zeitschritt nach vorne verschoben. 

2. Pick Overlap 

In unser vorigen Untersuchung haben Sie durch den Timedelay-Algorithmus eine 2- 

dimensionale Zeitreihe mit den Daten y[t]=(x[t],x[t-1]) erzeugt. Mit der zeitverschobenen 

Zeireihe z=x[i+1] zusammen liegen die Beispielpaare vor, um ein Netzwerk auf die Abbildung 

y[t]Æz[t] zu trainieren. Allerdings existiert durch den Zeitversatz an den Enden der Zeitreihen 

nicht für jedes t von y[t] ein z[t] und umgekehrt. Um reguläre Beispielpaare zu erzeugen müssen 

mit 7LPHVHU3LFN 2YHUODSS die Zeitreihen an den Enden „zurechtgeschnitten“ werden. Verbinden Sie 

die beiden Inputknoten mit den zwei Zeitreihen. An der Ausgabenseite erhalten Sie die gekürzten 

Zeitreihen. 

3. Clustering 

Als Vorstufe des neuronalen Netzes benötigen Sie das „Cluster-Set“, das mit 1HXUDO 1HW&OXVWHULQJ 

erzeugt wird. Dazu muß die Input-Zeitreihe mit der (gekürzten) 2-dimensionalen Zeitreihe 

verbunden werden. Setzen Sie vorher Size=3000 im Generate-Henon-Algorithmus. In der 

grafischen Darstellung des Cluster-Sets erkennen Sie die berechnete Einteilung des 

Phasenraumes. 

4. Fit des Radialen-Basis-Funktionen-Systems 

1HXUDO 1HW? 5)6)LWWLQJ muß eingefügt und die Cluster-Sets miteinander verbunden werden. Die 

Input-Zeitreihe als Ziel des Fits wird mit der (gekürzten) 1-dimensionalen Henon-Zeitreihe 

verbunden. In dem Ausgabeknoten der RFS-Fits liegt das RBFS vor, was einem komplettem 

neuronalen Netzwerk entspricht. 

119

5. Anwendung des RBFS 

Das Netzwerk wird jetzt mit 1HWZRUN5)6&DOFXODWLQJ auf die Argumente, die in der 2-dimensionalen 

Zeitreihe vorliegen, angewendet. In einer Grafik sollten Sie die berechnete und die originale 

Zeitreihe visuell vergleichen. Setzen Sie dazu vorher im TSPlot-Algorithmus: SetxRange=1, 

xfrom=0 und xto=50. Mit 7LPHVHU&RPSDULVLRQ erhalten Sie den genauen numerischen Vergleich. 

6. Trainings- und Testset 

Für eine echte Vorhersage ist die bisherige Vorgehensweise nicht erlaubt, da das Netzwerk an 

den Trainigsdaten getestet wurde. Generieren Sie jetzt eine 3000 Punkte lange Zeitreihe und 

teilen diese mit 7LPHVHU6SOLW bei SplitPos=2000 in zwei Teile. Dazu trennen Sie das Netz hinter 

dem Timedelay-Algorithmus auf und fügen den Algorithmus ein. Das Netz wird nun mit dem 

vorderen Teil der Zeitreihe (Output-Verbindungslinie Nummber 1) trainiert und an dem hinteren 

Teil getestet. 

7. Variation 

Sie können nun verschiede Variationen des Netzes oder der Daten untersuchen. Sinnvoll ist z.B. 

in Timedelay die Dimension zu verändern oder größere Vorhersageschritte in Shift-Time mit 

größerer Beispielzahl einzustellen. 

Das grundsätzliche Arbeiten mit dem Programm ist an Hand dieser Beispiele erklärt. Den vollständigen 

Überblick über die implementierten Algorithmen und die Möglichkeiten von sinnvollen Verknüpfung 

erhalten Sie beim Durcharbeiten der Hilfedateien. 

120

9.2 Tabellen 

Element 

mg/kg 

Elem.- 

Nummer 

Reifenabrieb Teer Dieselfeststoffemission 

Benzinfeststoffemission 

Zementabrieb 

Ziegelabrieb Kalk Reingasstaub 

Steinkohle 

Reingasstaub 

Braunkohle 

Stoffnum. -> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 20 

Ag 1 0,025 0,02 6 20 0,02 0,03 0,06 12 0,3 240 7 60 0,5 0,5 0,2 0,8 0 0,1 0 0,06 5,7 0 

Al 2 370 430 3300 2200 32000 90000 10000 90000 40000 44000 10000 800 1100 10000 900 6300 0 840 0 78000 16500 0 

As 3 6 5 180 370 10 5 1 480 60 200 11 225 5 60 25 90 0 0,6 0 2,5 79 0 

Ba 4 530 65 200 2500 1000 500 120 1300 1300 1600 1200 150 16000 20000 75 270 0,6 30 0 730 710 0 

Be 5 1,1 0,1 2 1 2 3 0,3 18 2 3,2 1 6 1 1 0,1 0,1 0 0,06 0 4 3,6 0 

Bi 6 0,012 0,01 3 2 0,03 0,04 0,05 15 0,8 280 2 65 1 1 0,03 0,5 0 0,06 0 0,13 3,5 0 

OC + EC 7 6E+05 6E+05 7E+05 6E+05 600 600 2300 7000 9000 30000 6000 22000 7E+05 5E+05 3E+05 3E+05 0 3E+05 0 320 4E+05 0 

Ca 8 3400 32 8000 4400 5E+05 20000 3E+05 19000 3E+05 75000 2E+05 55000 800 7800 4000 2100 12000 36000 0 29000 50000 0 

Cd 9 9 0,02 27 45 0,05 0,07 0,1 35 2,5 820 22 300 1 2 0,8 4 0 0,75 0 0,1 25 0 

Cl 10 6300 7300 9900 28000 140 100 150 8000 3000 1E+05 43000 10000 600 700 400 700 6E+05 0,3 0 320 13500 1E+06 

Co 11 1,8 1 15 4 15 20 2 140 20 22 12 120 40 60 2 200 0 0,9 0 12 14 0 

Cr 12 46 12 220 220 45 90 11 460 70 750 48 1400 140 2100 2 180 0 6 0 60 150 0 

Cu 13 630 130 4000 4600 20 40 4 450 80 1900 34 900 100 49000 30 850 0 15 0 25 780 0 

F 14 220 200 1700 80 800 200 330 2400 1100 1600 1100 5000 100 1000 100 10 30 20 0 720 900 0 

Fe 15 3600 37 5700 3300 35000 43000 15000 60000 60000 26000 20000 4E+05 2E+05 1E+05 800 3500 0 720 0 35000 18000 0 

Ga 16 2 0,2 6 8 10 20 4 150 50 270 27 20 5 40 0,5 2 0 0,09 0 17 18 0 

Hg 17 0,27 0,02 5 3 0,01 0,01 0,04 3 4 70 4 35 0,1 0,1 0,5 0,8 0 0,2 0 0,05 5,4 0 

K 18 740 22 730 1700 3500 26000 4700 24000 4000 74000 2E+05 700 350 21000 100 1000 12000 17000 0 28000 9000 0 

La 19 4,1 0,1 11 9 20 50 4 60 20 3,8 19 10 4 4 1 0,6 0 0,6 0 44 9,7 0 

Mg 20 660 15 5200 15000 20000 11000 26000 9500 34000 11000 5100 13000 9300 9300 2500 1200 39000 3300 0 14000 6800 0 

Mn 21 150 2 220 3100 1500 700 700 500 450 850 500 24000 1300 1600 25 50 0 2100 0 690 800 0 

Mo 22 1,3 0,1 18 11 2 3 0,4 90 20 35 10 280 220 3200 10 40 0,3 0,21 0 1 19 0 

Na 23 1500 140 2100 9300 1100 15000 13000 8500 12000 57000 11000 6000 1500 1200 700 1200 3E+05 1100 0 25000 8000 0 

Nb 24 0,5 0,1 2 2 10 20 0,3 20 20 15 11 100 8 10 1 2 0 0,03 0 20 8,6 0 

Ni 25 57 4 370 220 30 70 15 500 40 210 36 150 20 120 180 13000 0 5,4 0 30 200 0 

P 26 140 10 320 2400 1200 400 300 4400 1000 1000 440 2000 30 160 100 1000 2 3000 0 700 500 0 

Pb 27 420 21 340 69000 10 4,5 10 1800 100 26000 2100 26000 2 8000 20 180 0 21 0 20 2600 0 

Rb 28 3,2 2 9 625 50 150 11 130 70 130 900 60 4 3 5 3 3,6 30 0 140 47 0 

S 29 7100 4300 7600 45000 12000 1000 1200 45000 80000 60000 1E+05 12000 3000 11000 65000 1E+05 27000 7500 1E+06 320 60000 0 

Sb 30 56 0,1 36 31 0,2 0,5 0,3 70 15 1800 3 40 30 20000 0,5 280 0 0,12 0 0,6 74 0 

Sc 31 0,4 0,1 1 1 5 15 1 27 3 3,3 10 6 1 1 2 0,2 0 0,09 0 14 2,5 0 

Se 32 27 0,03 30 120 0,03 0,05 0,08 100 70 34 15 90 0,2 0,3 15 14 0 0,06 0 0,11 25 0 

Si 33 1800 170 3800 2500 98000 3E+05 35000 2E+05 70000 59000 47000 17000 3200 15000 800 4400 60 39000 0 3E+05 52000 0 

Sn 34 1,2 0,1 12 15 2 6 1 15 7 5800 2 350 10 600 0,5 11 0 0,3 0 3 64 0 

Sr 35 52 12 95 460 400 200 450 1100 1000 270 610 50 190 500 50 140 240 150 0 290 180 0 

Th 36 2 0,2 2 0,5 5 10 1,3 27 6 5 7 5 1 2 0,2 0,2 0 0,2 0 10 2,4 0 

Ti 37 310 3 320 200 1900 5000 400 6000 1200 2400 520 300 70 400 10 50 0 120 0 4100 810 0 

Tl 38 0,01 0,01 2 0,6 0,05 0,23 0,15 27 0,6 15 50 10 1 2 0,03 0,3 0 0,6 0 0,75 3,4 0 

U 38 0,2 0,1 1 0,2 2 4 1,1 20 6 5 2 5 2 2 0,02 0,7 0 0,2 0 2,5 1,3 0 

V 40 6,5 3 100 140 50 130 20 660 60 90 63 400 30 10 400 44000 0 6 0 85 170 0 

Zn 41 10000 62 1400 4100 110 90 3 2400 300 58000 610 80000 1400 8900 70 1200 0 105 0 70 4700 0 

Zr 42 1 0,2 19 7 150 200 19 100 30 110 95 200 970 1500 0,3 3 0 3 0 160 42 0 

Summe 7E+05 6E+05 7E+05 8E+05 7E+05 5E+05 4E+05 5E+05 6E+05 7E+05 6E+05 7E+05 9E+05 9E+05 4E+05 5E+05 1E+06 4E+05 1E+06 5E+05 1E+06 

Rest 3E+05 4E+05 3E+05 2E+05 3E+05 5E+05 6E+05 5E+05 4E+05 3E+05 4E+05 3E+05 89463 1E+05 6E+05 5E+05 9664 6E+05 0 5E+05 0 

Reingasstaub 

Zement 

Reingasstaub 

Stahl 

Tabelle 37: Mischungsmatrix und Probenzusammensetzung. Die Konzentrationen sind in mg/kg angegeben. 

Bremsabrieb I 

Bremsabrieb 

II 

Rückstand 

Heizöl leicht 

Rückstand 

Heizöl schwer 

Meersalz 

Schwefel 

(S) 

Kontinentale 

Oberkruste 

Reingasstaub 

Müllverbrennung 

Pflanzendetritus 

Staubprobe 

Chlor 

(Cl) 

121

Stoffnummer-> 

Entferntes 

Element 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

ohne 1 0.00 0.07 0.16 0.14 0.06 -0.26 -0.07 5.82 0.54 -2.67 -0.39 -0.02 0.23 -8.07 13.12 -23.02 -5.25 -1.59 -0.08 -0.32 -1.01 0.37 

ohne 2 0.24 0.87 0.63 0.57 0.67 0.86 -3.26 -55.40 1.35 8.33 2.05 -1.95 1.58 38.42 -6.48 53.74 20.45 1.79 -13.78 -12.25 3.12 0.91 

ohne 3 -4.18 2.12 -1.07 0.05 -0.21 0.43 -3.94 5.89 0.51 1.23 -12.15 6.37 9.34 13.27 -0.78 13.14 -6.57 -3.62 2.21 1.57 -0.51 0.67 

ohne 4 -1.31 1.46 0.98 1.30 0.99 1.77 -12.94 -365.67 -36.27 -16.47 1.78 -6.12 -0.21 14.23 -0.52 59.90 -65.14 5.02 -4.75 -4.67 -4.65 1.91 

ohne 5 -0.79 -3.09 -2.06 -1.83 -1.60 -2.79 24.88 462.55 -5.13 -5.17 2.87 6.68 9.83 39.38 6.24 -101.81 -31.55 -46.56 18.35 15.90 -4.35 2.57 

ohne 6 -0.06 0.28 0.29 0.30 0.13 -0.18 -2.30 1.63 0.81 -3.66 -0.48 0.30 0.93 -11.94 17.55 -25.59 -6.47 -1.11 -0.77 -1.07 -1.15 0.50 

ohne 7 -70.94 -96.10 -95.37 -98.79 -75.59 -94.61 97.90 3892.21 -142.80 164.20 194.92 71.66 91.65 168.48 -46.68 2141.55 969.73 -56.73 57.74 53.13 748.89 38.24 

ohne 8 5.90 13.64 7.79 8.25 8.48 -20.43 -6.92 -98.59 -24.80 12.48 -93.14 -57.49 -76.69 -6.67 -12.57 1413.78 -217.39 14.62 14.31 19.93 26.89 6.78 

ohne 9 -0.06 0.09 0.15 0.17 0.06 -0.16 -0.75 -1.29 0.67 -0.01 -0.63 0.02 -0.01 -5.80 9.99 -17.38 -4.26 -1.38 -0.06 -0.25 -0.85 0.28 

ohne 10 19.30 9.93 5.45 6.30 4.72 -22.23 -13.31 -141.22 -24.91 5.42 -35.25 9.47 11.71 0.31 -6.94 194.60 -100.00 1.37 -5.64 3.53 -20.11 4.62 

ohne 11 -2.75 -1.32 -1.41 -1.08 -1.38 1.05 -10.00 1048.93 -0.36 10.06 -4.30 -2.28 -1.66 4.36 -4.82 57.19 -7.83 8.46 -3.74 -5.18 -6.54 1.51 

ohne 12 3.80 5.28 3.94 4.34 3.69 -4.84 -9.05 -122.01 13.38 -14.90 -3.26 3.21 11.95 13.41 -2.20 54.56 -41.21 4.10 -2.87 -2.96 -6.55 1.68 

ohne 13 4.31 7.93 5.16 4.97 4.35 -7.70 -19.55 -164.44 11.02 10.50 -6.71 2.91 6.32 14.27 -2.90 53.04 -42.59 4.23 -5.23 -2.56 -11.18 2.29 

ohne 14 1.05 -6.24 -1.86 -2.48 -1.36 1.07 29.72 490.81 -2.73 -53.85 -1.88 -3.89 -3.77 -41.07 11.63 98.08 -1.90 -10.97 14.75 8.27 7.40 2.29 

ohne 15 -0.36 2.56 1.64 1.31 0.86 -1.15 -18.70 -317.04 -5.34 65.25 -9.62 1.61 0.06 17.99 -21.72 37.62 -43.80 -5.07 1.15 4.22 -7.06 1.94 

ohne 16 0.30 0.15 0.07 0.08 0.06 -0.06 -0.53 -7.41 -0.02 0.20 -0.54 0.47 0.67 -0.25 -1.02 2.69 -0.47 0.34 -0.46 -0.34 -0.14 0.06 

ohne 17 0.14 -0.29 0.02 -0.08 -0.09 -0.07 1.94 6.49 -1.76 -3.49 -0.79 0.48 0.32 5.20 -14.67 32.04 5.87 2.70 0.28 0.33 1.75 0.43 

ohne 18 1.27 0.37 0.18 -0.01 0.31 -0.69 1.93 -38.02 -0.37 2.03 7.27 3.70 4.73 -87.85 -3.44 -40.86 9.63 2.27 -0.77 -0.74 6.94 0.82 

ohne 19 1.78 -1.21 -0.19 0.28 0.26 0.17 0.95 -67.16 0.55 0.31 -3.26 -1.35 -0.64 -0.17 -3.72 -30.67 -9.25 2.72 4.38 6.54 -2.87 0.45 

ohne 20 9.04 3.00 1.18 1.56 0.58 -10.84 -1.65 -139.59 -13.42 -0.14 -18.23 14.32 7.54 -18.62 -2.95 -409.90 118.56 2.05 -3.91 -1.98 -9.15 2.59 

ohne 21 -1.02 -0.01 -0.08 -0.24 -0.23 -0.09 0.65 -32.01 1.06 18.78 -0.90 0.20 -1.65 3.42 -5.57 -19.44 1.13 -3.94 2.04 2.21 -1.24 0.49 

ohne 22 4.63 3.71 3.83 3.85 3.95 -5.05 -9.04 -100.08 10.98 5.05 -3.57 1.19 3.48 4.22 -0.16 18.49 -31.83 2.12 -2.70 -0.96 -8.35 1.47 

ohne 23 16.13 3.33 1.99 2.62 0.99 -11.33 -3.03 -123.00 -13.62 2.18 -34.61 21.00 7.61 -13.10 -3.63 -184.31 -4.01 2.39 -4.83 -0.86 -8.24 2.61 

ohne 24 0.49 0.28 0.10 0.02 0.03 -0.08 1.36 24.61 -0.80 -14.49 -1.56 0.65 2.46 -4.02 3.58 14.57 2.84 2.68 -2.23 -2.05 0.83 0.39 

ohne 25 -2.52 0.72 0.40 -0.06 0.15 0.17 1.29 -24.87 0.29 0.38 4.41 -0.78 0.01 6.02 0.17 0.78 8.64 -2.68 1.54 2.00 -10.14 0.41 

ohne 26 -2.30 1.03 0.21 -0.27 0.18 -1.64 11.22 116.46 2.90 -0.13 14.64 3.45 6.62 -34.45 -4.50 -182.47 22.78 16.45 -9.14 -9.35 -6.42 1.23 

ohne 27 -8.15 -11.68 -9.81 -10.83 -7.89 -12.70 133.51 476.20 -20.53 5.79 -15.48 -6.10 -27.31 -94.22 4.57 -303.16 3.13 -58.57 49.32 42.48 55.38 7.61 

ohne 28 -5.54 -5.58 -4.31 -4.36 -4.37 -3.60 57.91 403.16 -3.63 3.23 -27.32 -12.43 -26.56 255.98 -10.18 -54.53 -7.95 -35.35 27.33 23.54 -17.81 4.15 

ohne 29 24.48 14.70 8.87 10.00 6.15 -26.71 -19.61 -200.26 -28.80 9.90 -48.15 16.28 20.58 5.36 -8.44 312.08 -54.00 -1.03 -4.53 6.58 -100.00 6.40 

ohne 30 6.15 5.63 5.65 5.46 5.27 -7.25 -14.51 -176.09 13.66 12.41 -4.97 1.18 3.17 10.41 -4.97 40.72 -43.37 3.51 -4.20 -1.38 -12.25 2.13 

ohne 31 0.35 0.33 0.13 0.01 -1.05 0.23 -4.13 -77.75 0.96 2.05 -2.47 -4.33 -10.82 25.80 -4.51 -19.88 12.00 6.21 3.94 3.42 -1.79 0.55 

ohne 32 -9.14 0.28 2.03 0.29 1.61 1.97 -16.35 97.50 -0.04 -5.98 19.48 -5.70 -6.70 25.96 3.66 -57.44 20.55 -6.41 5.18 2.22 0.63 1.24 

ohne 33 2.71 1.53 0.88 0.92 1.05 1.00 -9.35 -70.95 0.27 -1.59 7.82 -0.20 7.34 21.93 0.54 99.64 26.66 13.64 -26.88 -24.99 6.11 1.70 

ohne 34 -0.03 0.01 0.03 0.07 -0.01 -0.10 -0.55 12.34 -0.43 -4.88 -0.05 0.36 0.93 -7.96 10.91 -18.12 -3.31 -0.86 -0.29 -0.47 -0.49 0.32 

ohne 35 -0.43 -0.63 -0.10 -0.16 -0.08 0.36 -1.21 -6.16 -1.47 -7.25 23.92 -2.97 6.05 9.63 0.05 -31.89 -4.81 3.61 -5.60 -3.23 -1.32 0.68 

ohne 36 1.50 0.46 -0.33 0.07 0.17 0.63 -5.72 -98.33 0.80 -1.86 0.81 -1.60 -3.12 7.01 -1.53 -22.49 9.63 9.92 -1.09 -1.80 -1.68 0.53 

ohne 37 0.27 0.00 -0.24 -0.02 0.09 0.00 -0.53 -14.61 0.11 -2.41 1.96 -1.74 -2.58 -9.97 1.74 -23.24 -1.15 0.88 2.30 4.66 -1.09 0.26 

ohne 38 0.89 -0.60 -0.44 -0.62 -0.28 -1.50 8.05 -5.55 -2.50 -1.54 7.18 6.98 5.72 -118.29 0.52 -121.86 25.47 -5.16 4.96 4.23 9.82 1.24 

ohne 39 2.62 2.12 0.96 0.69 0.95 0.21 -15.60 -186.25 -0.25 -4.25 3.00 1.31 2.69 -14.85 0.37 43.47 8.78 22.12 -13.95 -10.04 -0.72 1.37 

ohne 40 -2.41 -0.21 0.03 -0.34 -0.31 0.09 2.40 240.95 0.38 -0.39 4.35 -0.96 -0.40 6.23 0.64 -5.44 6.27 -4.06 2.39 2.79 -12.38 0.56 

ohne 41 -0.27 0.33 -0.90 -0.06 -0.06 0.51 0.19 3.32 0.59 1.13 0.37 0.21 -1.06 -0.56 1.01 -0.04 0.86 -0.31 -0.21 0.01 0.14 0.16 

ohne 42 -2.08 -0.39 -0.29 -0.11 -0.50 2.40 -11.33 -227.17 -27.71 -0.18 -3.47 -3.36 -3.53 15.09 -3.24 5.96 -33.27 -1.57 3.02 2.65 -3.21 1.40 

Tabelle 38: Prozentuale Veränderungen der berechneten Stoffkonzentrationen beim Entfernen von jeweils einem Elementen. 

Die Elementindizes liegen in der alphabetischen originaler Sortierung laut Tabelle 37 vor. Alle Lösungen wurden durch Reduktion und Mittelung von 12 bis 14 Eigenrichtungen 

erhalten. Die Referenz Lösung wurde unter der Verwendung aller Elemente 42 bestimmt. Als Abstandsmaß wurde die Länge des Differenzvektors der beiden Lösungen definiert. 

Abstand zur 

Lösung mit 

allen 

Elementen 

122

Stoffnummer -> 

Entferntes Element 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Abstand. zur 

Lsg. mit allen 

Elementen 

Änderung des 

Abstandes zur Lsg. 

mit allen Elementen. 

ohne 5 -27.06 -176.64 20.34 -3.77 -20.87 177.91 -30.67 -6.37 110.87 23.88 -47.24 35.50 -11.37 6.95 34.80 1.06 0.00 3.71 -5.97 13.27 9.33 291.48 11.63 512.20 

ohne 6 -4.06 128.84 -61.16 153.23 -30.47 -82.54 -16.47 112.57 -86.33 41.90 -99.36 -15.43 59.14 69.10 31.59 -30.01 10.68 0.14 -3.03 -1.59 -6.33 303.11 -60.39 413.35 

ohne 7 -26.06 89.73 44.56 -135.52 63.10 -10.61 46.93 90.85 -54.25 -65.10 18.23 56.43 -48.02 -15.12 -33.75 -2.11 6.04 -4.12 -17.63 -24.23 -9.10 242.72 -124.03 253.79 

ohne 8 -5.83 41.50 50.76 34.63 -26.49 -55.84 1.89 22.27 13.36 7.15 -35.51 45.46 -25.78 4.88 -7.83 5.16 -1.95 -3.37 -3.33 6.76 6.21 118.69 10.22 164.36 

ohne 9 -21.63 30.57 26.36 -72.65 40.67 30.06 -2.92 26.85 19.57 16.97 1.60 46.33 -56.44 2.54 -6.44 3.71 -0.30 0.18 4.28 11.05 -1.06 128.91 -59.80 142.94 

ohne 10 -26.93 -12.07 5.14 32.92 22.15 12.65 9.72 15.26 21.52 -11.51 0.49 15.78 -0.35 -0.93 -12.61 4.74 -0.53 25.19 -2.91 -9.40 1.49 69.11 118.34 176.93 

ohne 11 -167.42 47.13 54.07 -2.62 5.17 37.65 -8.55 21.30 -3.62 8.45 8.70 8.38 0.21 11.87 22.67 -1.94 -1.24 2.86 -3.35 -5.56 0.22 187.45 -133.96 233.99 

ohne 12 54.42 8.64 5.14 6.12 4.75 11.14 -0.54 13.45 0.18 4.27 -2.33 5.89 -1.01 -0.16 6.49 0.81 -0.73 14.49 -1.08 0.80 1.77 53.49 -33.54 42.26 

ohne 13 15.27 16.07 12.91 10.51 5.24 10.84 2.55 7.04 -0.12 3.04 -2.05 8.62 0.80 -0.01 -0.55 2.10 -0.97 14.81 -1.18 -0.67 2.89 19.96 1.24 14.43 

ohne 14 5.87 23.03 14.09 11.90 6.78 5.08 3.03 6.03 -0.57 -0.61 -0.54 7.67 1.81 -0.52 2.56 1.75 -1.69 14.65 -2.58 0.08 2.16 21.20 -0.31 5.03 

ohne 15 6.59 22.01 14.80 13.03 7.72 3.41 2.36 6.44 -0.96 -0.49 1.06 5.65 1.99 -0.82 5.15 0.96 -2.15 13.48 -2.16 0.80 1.13 20.89 0.03 5.67 

ohne 16 6.95 19.71 15.15 13.01 8.02 3.24 3.32 6.80 -0.73 -0.92 2.30 4.51 2.63 -1.30 1.66 0.56 -2.23 15.64 -0.23 1.49 0.43 20.92 0.09 0.55 

ohne 17 6.97 19.83 15.15 13.04 8.05 2.96 3.24 6.83 -0.55 -0.73 2.43 4.30 2.62 -1.23 1.57 0.55 -2.27 15.43 -0.15 1.57 0.38 21.01 -2.67 13.23 

ohne 18 7.93 21.66 16.44 14.28 8.79 2.63 3.93 -3.65 -0.57 0.58 2.58 4.75 2.59 -3.09 2.80 -0.84 -0.43 10.40 1.95 4.73 2.54 18.34 0.24 0.33 

ohne 19 7.94 21.75 16.47 14.30 8.79 2.38 3.88 -3.61 -0.42 0.52 2.55 4.76 2.60 -3.09 2.90 -0.84 -0.46 10.36 1.95 4.73 2.50 18.58 0.49 1.84 

ohne 20 8.21 21.91 16.78 14.55 8.97 1.49 3.61 -3.25 -0.29 0.93 3.02 4.12 2.53 -2.62 2.30 -0.71 -0.72 9.74 2.12 5.07 2.24 19.07 -1.55 4.51 

ohne 21 8.20 20.55 16.26 14.29 8.87 2.90 5.24 -3.51 -0.63 0.82 4.10 4.49 3.13 -4.61 2.78 -1.79 0.86 8.14 2.36 4.46 3.09 17.52 -6.39 7.23 

ohne 22 7.52 18.32 14.92 13.12 8.15 7.52 4.85 -1.65 -1.81 0.95 3.65 3.90 2.39 -0.89 1.71 -1.21 1.14 7.95 2.58 4.19 2.71 11.13 -1.67 3.18 

ohne 23 7.29 17.19 14.38 12.51 7.85 8.98 4.70 -0.50 -1.99 0.76 3.74 4.37 2.34 -0.62 0.96 -1.89 2.68 7.28 3.05 4.48 2.45 9.46 -2.47 4.88 

ohne 24 6.83 17.35 14.25 12.73 7.87 10.62 3.44 -1.19 -2.50 2.51 2.89 3.50 1.88 0.79 0.87 -0.69 1.55 4.69 3.86 5.51 3.23 6.99 0.21 1.43 

ohne 25 6.05 17.48 14.35 12.84 7.93 10.37 3.46 -0.91 -2.48 2.26 3.17 3.39 1.72 0.59 1.56 -0.98 1.60 4.53 4.51 5.52 3.06 7.21 -0.80 1.20 

ohne 26 6.14 17.14 14.16 12.69 7.83 11.02 3.38 -0.72 -2.67 2.24 3.00 3.13 1.58 1.22 1.83 -0.75 1.30 4.42 4.58 5.55 2.95 6.41 -0.51 2.10 

ohne 27 6.68 16.70 13.85 12.49 7.65 11.10 3.66 0.31 -2.82 2.51 1.87 3.56 1.52 1.11 2.11 -0.35 0.72 3.97 4.93 5.73 2.70 5.90 0.02 0.38 

ohne 28 6.68 16.65 13.90 12.48 7.66 11.02 3.80 0.25 -2.77 2.40 1.98 3.45 1.45 1.03 2.10 -0.34 0.86 4.12 4.87 5.66 2.75 5.91 0.13 3.16 

ohne 29 7.83 16.69 14.03 12.75 7.78 11.73 3.21 -1.56 -2.92 2.59 1.40 3.40 1.33 1.05 1.66 0.41 -0.05 5.07 4.45 5.28 3.86 6.05 -0.04 1.21 

ohne 30 7.67 16.56 13.98 12.69 7.92 11.48 3.71 -1.27 -2.76 2.73 1.39 3.76 1.68 0.93 1.20 0.59 -0.06 4.57 4.19 4.98 4.04 6.00 0.02 0.76 

ohne 31 7.47 16.50 14.03 12.67 7.88 11.34 4.03 -1.04 -2.72 2.90 1.34 3.89 1.77 0.91 1.18 0.66 -0.12 4.03 4.21 5.00 4.08 6.02 -3.32 5.57 

ohne 32 6.55 14.93 13.34 11.99 7.52 15.22 4.14 -0.72 -3.93 1.97 2.07 3.82 1.77 0.24 3.72 -0.19 0.43 4.04 4.06 4.39 4.64 2.71 1.02 2.55 

ohne 33 6.76 15.39 13.65 12.32 7.61 15.20 3.51 -0.56 -3.98 1.08 2.12 4.13 2.10 -0.11 5.42 -0.30 0.29 4.32 3.56 3.84 3.67 3.73 -0.31 1.29 

ohne 34 6.81 15.44 13.65 12.33 7.53 15.28 3.65 -0.09 -4.03 1.18 1.99 4.23 2.15 0.05 5.44 -0.05 0.43 3.99 3.61 3.82 2.60 3.42 -0.49 0.88 

ohne 35 6.71 15.19 13.57 12.17 7.49 15.66 3.81 0.08 -4.12 1.27 2.29 4.02 2.02 0.20 5.15 -0.08 0.73 3.86 3.73 3.91 2.33 2.93 -0.01 0.46 

ohne 36 6.88 15.08 13.52 12.18 7.48 15.62 3.75 0.09 -4.10 1.25 2.21 4.04 2.02 0.14 5.15 -0.09 0.64 3.98 3.66 3.82 2.68 2.92 -0.33 0.64 

ohne 37 6.84 15.03 13.50 12.16 7.47 15.65 3.71 0.06 -4.16 1.76 2.19 4.03 1.96 0.21 4.94 -0.11 0.60 3.80 3.80 3.96 2.62 2.59 -1.45 1.47 

ohne 38 6.82 14.84 13.44 12.07 7.44 15.87 3.91 0.09 -4.14 1.97 2.25 4.02 1.92 0.51 3.61 0.05 0.83 3.90 3.88 4.05 2.69 1.15 -0.62 0.68 

ohne 39 6.82 14.78 13.43 12.04 7.43 15.92 4.01 0.08 -4.17 2.15 2.27 3.99 1.88 0.65 3.00 0.12 0.92 3.91 3.93 4.11 2.71 0.53 -0.23 0.37 

ohne 40 6.82 14.74 13.43 12.01 7.43 15.94 4.08 0.10 -4.13 2.14 2.29 3.99 1.89 0.72 2.65 0.17 0.97 3.95 3.94 4.13 2.74 0.30 -0.13 0.26 

ohne 41 6.80 14.74 13.46 12.01 7.42 15.95 4.10 0.12 -4.13 2.21 2.25 4.06 1.93 0.80 2.60 0.22 0.98 3.91 3.86 3.95 2.77 0.16 -0.10 0.16 

ohne 42 6.82 14.69 13.58 12.02 7.43 15.87 4.09 0.11 -4.11 2.19 2.24 4.05 1.95 0.81 2.57 0.22 0.97 3.92 3.87 3.95 2.76 0.06 -0.06 0.06 

alle 6.80 14.67 13.57 12.01 7.42 15.88 4.12 0.12 -4.11 2.18 2.25 4.03 1.94 0.81 2.60 0.21 0.98 3.91 3.89 3.96 2.77 0.00 0.00 0.00 

Tabelle 39: Lösungen für das sukzessives Entfernen von Elementen. Die Elemente wurden nach dem Einfluß auf die Lösung nach Tabelle 15 sortiert. 

Zeilenweise ist die Tabelle von unten nach oben zu lesen: In der untersten Zeile ist die Lösung für alle Elemente angegeben. In der Zeile darüber wurde das 42. Element entfernt So 

wird weiter fortgefahren bis in der obersten Zeile die Elemente 5-42 für die Analyse nicht mehr benutzt werden. 

Änderung zur 

vorigen Lösung 

123

Stoffnummer 

Entferntes Element 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

Abstand. zur 

Gesamtlösung. 

Änderung des 

Abstandes zur 

Gesamtlösung. 

ohne 5 -27.06 -176.64 20.34 -3.77 -20.87 177.91 -30.67 -6.37 110.87 23.88 -47.24 35.50 -11.37 6.95 34.80 1.06 0.00 3.71 -5.97 13.27 9.33 291.48 11.63 512.20 

ohne 6 -4.06 128.84 -61.16 153.23 -30.47 -82.54 -16.47 112.57 -86.33 41.90 -99.36 -15.43 59.14 69.10 31.59 -30.01 10.68 0.14 -3.03 -1.59 -6.33 303.11 -72.44 339.80 

ohne 7 -17.12 51.44 -14.29 -66.87 148.05 -7.55 22.22 59.94 -30.05 -40.49 -50.94 -47.07 92.90 59.77 -5.02 -0.77 -0.33 3.34 -3.55 0.19 -12.72 230.67 -191.4 219.17 

ohne 8 -21.35 15.02 15.06 0.71 15.33 19.53 5.68 6.75 9.67 -0.26 -2.91 9.37 6.57 2.09 -8.30 3.50 -0.27 -1.98 -1.26 -1.41 4.04 39.26 48.06 104.89 

ohne 9 -3.35 -22.33 21.76 85.00 -5.89 10.21 -1.83 -15.48 -2.30 6.52 8.91 6.40 -0.90 -5.09 8.42 0.02 -0.05 14.06 2.22 4.34 6.65 87.32 -53.57 102.46 

ohne 10 -12.91 16.42 23.73 -1.40 5.64 20.03 2.88 13.70 -0.79 -1.76 1.89 10.38 -4.54 5.06 2.28 1.21 -0.33 13.94 0.07 0.46 1.93 33.75 3.30 52.84 

ohne 11 10.84 15.89 15.38 21.62 6.38 2.86 1.05 8.59 -0.54 0.17 -6.09 -10.24 21.74 14.26 4.46 -0.60 0.03 15.28 1.18 5.39 2.23 37.04 -15.56 33.51 

ohne 12 14.26 8.52 19.41 15.06 9.32 11.78 4.14 -6.34 0.23 -4.26 -0.71 3.87 3.04 6.42 1.18 0.89 -0.45 15.91 0.63 4.44 3.84 21.48 -4.55 16.62 

ohne 13 5.23 17.35 15.15 13.41 8.14 12.75 4.52 -6.03 -0.49 -4.48 -0.07 8.29 1.63 -1.76 1.01 0.59 0.02 15.05 1.59 3.31 4.57 16.93 -0.13 11.62 

ohne 14 -3.25 17.66 16.43 13.40 8.31 15.68 3.28 -4.54 -0.34 -5.07 2.62 4.63 3.49 0.95 1.24 -0.15 0.97 11.78 3.33 4.68 4.91 16.80 -5.89 7.68 

ohne 15 1.39 16.06 15.02 12.75 8.07 15.82 3.47 -1.87 -0.72 -4.00 3.18 3.19 2.64 3.31 0.78 0.13 0.64 8.07 3.71 4.37 3.98 10.92 -0.58 1.46 

ohne 16 2.12 15.79 14.74 12.75 8.08 15.82 3.60 -1.64 -0.84 -3.83 3.50 3.34 2.42 2.89 -0.05 0.04 0.87 7.87 4.14 4.41 3.97 10.33 -1.24 3.02 

ohne 17 4.66 15.53 14.00 12.25 7.90 15.12 3.90 -1.18 -0.53 -3.88 3.58 3.03 1.95 2.70 0.32 0.13 0.61 7.37 4.36 4.46 3.73 9.09 1.08 2.08 

ohne 18 4.84 15.83 14.09 12.39 7.99 15.12 3.15 -1.47 -0.01 -4.23 3.48 3.33 2.14 2.55 -0.14 0.61 0.40 8.42 3.64 3.66 4.21 10.18 0.63 5.37 

ohne 19 7.78 13.78 13.23 11.62 7.40 13.80 4.82 -0.83 1.67 -4.59 3.10 3.05 1.31 3.01 -0.56 0.49 0.39 7.02 4.88 4.84 3.78 10.80 -1.70 3.50 

ohne 20 7.80 13.66 13.32 11.71 7.36 14.00 4.20 -0.89 1.22 -3.85 2.90 3.63 1.36 1.91 1.78 -0.73 1.69 6.35 4.70 4.55 3.33 9.11 -2.50 3.38 

ohne 21 7.82 13.67 13.79 12.01 7.50 15.05 3.17 -1.43 -0.10 -1.52 2.75 3.28 1.12 1.57 2.59 -0.74 1.21 5.82 4.70 4.54 3.20 6.61 1.90 3.54 

ohne 22 8.62 14.29 13.88 12.11 7.63 14.73 1.68 -1.83 0.88 -2.28 2.73 3.85 1.70 0.69 3.32 -0.44 1.22 7.08 3.19 3.37 3.57 8.51 -0.28 3.02 

ohne 23 8.26 15.29 14.06 12.31 7.69 14.75 0.63 -2.84 0.59 -0.11 2.83 3.75 1.56 1.10 2.68 -0.55 1.05 7.40 2.81 3.34 3.40 8.24 -1.88 3.60 

ohne 24 6.87 15.30 14.01 12.31 7.65 15.60 1.34 -2.44 -0.50 0.80 3.00 2.86 1.12 1.34 2.12 -0.53 0.51 6.23 4.53 4.61 3.28 6.36 -1.09 3.74 

ohne 25 7.34 16.12 14.63 12.88 8.02 14.37 1.51 -1.86 -3.65 1.13 3.01 3.06 1.32 1.17 2.43 -0.36 0.62 6.29 4.22 4.38 3.37 5.26 -0.71 1.87 

ohne 26 7.41 15.73 14.36 12.63 7.84 14.06 2.20 -1.46 -3.53 1.60 2.58 3.10 1.27 1.19 2.05 -0.51 0.77 5.55 4.73 5.36 3.09 4.55 -0.32 1.73 

ohne 27 7.04 15.15 13.90 12.14 7.58 15.14 2.16 -1.59 -2.88 1.76 2.78 3.02 1.17 1.08 2.31 -0.57 0.88 5.79 4.51 5.19 3.43 4.24 0.06 0.89 

ohne 28 6.82 14.93 13.60 11.87 7.42 15.62 2.27 -1.57 -2.51 1.58 2.86 3.03 1.18 1.08 2.32 -0.55 0.94 5.89 4.49 5.12 3.64 4.29 -0.64 1.69 

ohne 29 7.02 15.00 13.60 11.87 7.46 15.27 2.82 -1.17 -3.71 1.39 2.94 3.23 1.34 0.80 2.74 -0.50 1.09 6.10 4.12 4.74 3.85 3.65 -0.15 1.52 

ohne 30 6.48 14.66 13.62 11.91 7.50 15.93 3.05 -1.10 -3.91 1.20 3.31 3.12 1.47 0.83 3.07 -0.60 0.95 5.37 4.14 4.48 4.51 3.50 -1.09 3.11 

ohne 31 7.18 14.75 13.54 12.06 7.32 15.91 3.61 -0.40 -4.05 1.27 2.80 3.61 1.82 0.92 3.16 -0.20 0.98 5.27 4.12 4.57 1.77 2.41 -0.21 0.90 

ohne 32 7.21 14.88 13.62 12.14 7.36 15.97 3.50 -0.49 -4.23 1.63 2.26 3.59 1.61 0.75 3.22 -0.22 1.09 5.01 4.35 4.75 1.99 2.20 -0.52 1.01 

ohne 33 7.08 14.85 13.66 12.17 7.52 15.82 3.74 -0.27 -4.15 1.57 2.23 3.90 1.94 0.51 3.47 -0.07 0.93 4.59 4.02 4.36 2.14 1.68 -0.29 0.64 

ohne 34 6.90 14.81 13.75 12.17 7.51 15.72 3.96 -0.12 -4.12 1.63 2.22 4.00 2.03 0.46 3.52 0.01 0.82 4.16 3.95 4.30 2.34 1.39 -0.51 1.34 

ohne 35 6.80 14.64 13.61 12.04 7.46 15.90 4.26 -0.09 -4.12 2.03 2.23 3.92 1.94 0.72 2.43 0.12 0.95 4.05 4.17 4.56 2.36 0.88 0.08 0.48 

ohne 36 6.90 14.63 13.62 12.07 7.48 15.87 4.25 -0.03 -4.07 1.65 2.25 3.91 1.96 0.68 2.59 0.15 0.95 4.19 4.10 4.47 2.38 0.96 -0.24 0.59 

ohne 37 6.74 14.83 13.66 12.03 7.45 15.79 4.23 0.12 -4.03 1.65 2.30 4.01 1.98 0.70 2.73 0.22 1.06 4.03 3.91 4.12 2.47 0.72 0.20 0.51 

ohne 38 6.72 14.88 13.64 12.04 7.46 15.82 4.14 0.10 -4.10 1.68 2.35 3.97 1.96 0.64 3.19 0.14 1.01 3.96 3.89 4.09 2.43 0.92 -0.05 0.44 

ohne 39 6.88 14.77 13.59 12.05 7.45 15.80 4.07 0.12 -4.09 1.65 2.27 3.99 1.96 0.59 3.20 0.14 0.93 4.08 3.81 3.99 2.74 0.87 -0.30 0.46 

ohne 40 6.85 14.72 13.58 12.04 7.44 15.81 4.03 0.09 -4.13 2.02 2.28 3.98 1.92 0.63 3.06 0.11 0.90 3.94 3.92 4.10 2.71 0.58 -0.33 0.47 

ohne 41 6.84 14.69 13.55 12.02 7.43 15.87 4.07 0.09 -4.11 2.13 2.29 3.98 1.90 0.72 2.63 0.17 0.96 3.96 3.95 4.13 2.73 0.25 -0.18 0.27 

ohne 42 6.82 14.69 13.58 12.02 7.43 15.87 4.09 0.11 -4.11 2.19 2.24 4.05 1.95 0.81 2.57 0.22 0.97 3.92 3.87 3.95 2.76 0.06 -0.06 0.06 

alle 6.80 14.67 13.57 12.01 7.42 15.88 4.12 0.12 -4.11 2.18 2.25 4.03 1.94 0.81 2.60 0.21 0.98 3.91 3.89 3.96 2.77 0.00 0.00 0.00 

Tabelle 40: Lösungen für sukzessives Entfernen von Elementen. Die Elemente wurden nach dem Einfluß auf die Lösung und chemischer Bedeutung nach Tabelle 16 sortiert. 

Zeilenweise ist die Tabelle von unten nach oben zu lesen: In der untersten Zeile ist die Lösung für alle Elemente angegeben. In der Zeile darüber wurde das 42. Element entfernt So 

wird weiter fortgefahren bis in der obersten Zeile die Elemente 5-42 für die Analyse nicht mehr benutzt werden. 

Änderung zur 

vorigen Lösung 

124

10 Abkürzungen 

DSN 

EDS 

EV 

EW 

FFT 

GCM 

HPR 

ICBM 

KKM 

LGS 

LRV 

Ma 

MA 

MEM 

PCA 

PIK 

PRC 

RBFS 

TMAX 

TOC 

Data-Stream-Network 

Expanded Downscaling 

Eigenvektor 

Eigenwert 

Fast-Fourier-Transformation 

Global Circulation Modell 

vapor pressure (Wasserdampfdruck) 

Institut für Chemie und Biologie des Meeres 

Kreuzkorrelationsmatrix 

Lineares Gleichungssystem 

Lineare Regressionsvorhersage 

Mega Jahre 

Moving Average 

Maximum Entropie Methode 

Principal Component Analysis 

Potsdam Institut für Klimafolgenforschung 

Precipitation (Niederschlag) 

Radiales Basis-Funktionen-System 

Maximaltemperatur 

Total Organic Carbon 

125

11 Literaturverzeichnis 

[1] TAKENS, F., (1981), Detecting strange attractors in turbulence, Lecture notes in Mathematics, Vol. 898, 

366. 

[2] FRÖHLINGHAUS, T., WEICHERT, A., RUJÁN, P., (1994), Hierarchical neural networks for time-series 

analysis and control, Network 6 101-116. 

[3] WELCH, B., (1995), Practical Programming in Tcl and Tk, Prentice Hall PTR. 

[4] OUSTERHOUT, J.K., (1995), Tcl und Tk (deutsche Übersetzung), Addison-Wesley. 

[5] STROUSTRUP, B., (1991), C++ - Die Programmiersprache, Addison-Wesley. 

[6] LIPPMAN, S.B., (1992), C++, Addison-Wesley. 

[7] LASKAR, J., FROESCHLÉ, C., CELLETTI, A., (1992), The measure of chaos by the numerical analysis of 

the fundamental frequencies, Physica D 56, 253. 

[8] SCHREIBER, T., (1993), Extremely simple nonlinear noise-reduction method, Phys. Rev. E 47 2401 

[9] BRAUSE, R., (1991), Neuronale Netze, B. G. Teubner Stuttgart. 

[10] RITTER, H., MARTINEZ, T., SCHULTEN, K., (1990), Neuronale Netze, Addison-Wesley. 

[11] HECHT-NIELSEIN, R., (1990), Neurocomputing, Addison-Wesley. 

[12] MODDY, J., DARKEN, C.H., (1989), Fast learning in networks of locally-tuned processing units, Neural 

Computation 1 281-294. 

[13] STOKBRO, K., UMBERGER, D.K., HERTZ, J.A., (1990), Exploiting neurons with localizied receptive fields 

to learn chaos, Complex Systems 4 603-22. 

[14] WATANABE, S., (1985), Patter Recognition: Human and Mechanical, New York: New York, Ch 6. 

[15] RACHOLD, V., HEINRICHS, H., BRUMSACK, H.-J., (1992), Spinnweben: Natürliche Fänger atmosphärisch 

transportierter Feinstäube, Naturwissenschaften 79 175. 

[16] HEINRICHS, H., BRUMSACK, H.-J., (1984), Emissionen von Stein- und Braunkohlekraftwerken der 

Bundesrepublik Deutschland, Fortschr. Miner. 62 438. 

[17] PAULY, D.P., MUCK, J., TSUKAYAMA, M., TSUKAYAMA I., (1989), The Peruvian upwelling ecosystem: 

dynamics and interactions, ICLARM Comf. Proc 18, 438. 

[18] PALOMARES, M.L., JARRE, A., SAMBILAY V., (1989), Documentation of available 5 1/4 ' MSDOS data 

discs on the Peruvian upwelling ecosystem, 408 - 416. In D. Pauly, P. Muck, J. Mendo und I. 

Tsukayama (Hrsg.), The Peruvian upwelling ecosystem: dynamics and interactions. ICLARM 

Conference Proceedings 18, 438. 

[19] SCHUSTER, H.H., (1984), Deterministic Chaos, Weinheim: Physik Verlag. 

[20] PRESS, W.H., FLANNERY, B.P. TEUKOLKY, S.A., Vetterling, W.T., (1990), Numerical Recipes in C: The 

Art of Scientific Computing, Cambridge University Press. 

[21] BÜRGER G., (1996), Expanded downscaling for generating local weather scenarios, Clim. Res. 7 111- 

128. 

[22] BÜRGER G., WEICHERT A. (1998), Linear vs. nonlinear techniques in downscaling, To be published in 

Clim. Res 

[23] FISCHER, A.G., BOTTJER, D.J., (1991), Orbital forcing and sedimentary sequences, J. Sed. Petrol., 61 

1063 

[24] TORBETT, M.V., (1989) Solar system and galactic influendes on the stability of the earth, 

Palaeogeographie, Paleaoclimatology, Palaeoecology, 75 3. 

[25] RACHOLD, V.E., Dissertation: Geochemie der Unterkreide Nordwestdeutschlands: Zyeln und Events, 

Georg-August-Universität, Göttingen, 1994. 

[26] LASKAR, J., JOUNTEL, F., BOUDIN, F., (1993), Orbital precessional, and insolation quantities for the 

Earth from -20 Myr to +10 Myr, Astron. Astrophys. 270 522. 

[27] FARMER, J.D. SIDOROWICH, J.J., (1987), Predicting Chaotic Time Series, Phys. Rev. Lett. 59 845-449. 

[28] BENTLEY, J.L., (1979), Multidimensional binary search trees in database applications, IEEE 

Transactions on software engineering SE-5(4), 333 

[29] Salvino. L.W., Cawley. R.C., Grebogi, Yorge A.J., (1995). Predictability in time series, Physics Letters 

A 209 332 

126

Danksagung 

An dieser Stelle möchte ich allen danken, die mich bei der Erstellung dieser Arbeit unterstützt haben. 

Mein besonderer Dank geht an Prof. Bruno Eckhardt und Prof. Pal Ruján, die mir die Durchführung der 

Arbeit ermöglicht und mir in zahlreichen Gesprächen und Diskussionen weitergeholfen haben. 

Desweiteren danke ich Dr. Harry Urbschat, der immer für ein privates und informatives Gespräch Zeit 

gefunden hat. Ich danke auch Johannes Hausmann für die Tips bei der C++-Programmierung und in 

einem anderen Zusammenhang für die intensive Unterstützung bei der Erstellung des Poster zum Data- 

Stream-Network. Großer Dank gilt auch Bettina Heidenreich, Inge Scheunemann und Dörte Schlünzen 

für die Revision der Arbeit. Ich danke besonders Bettina Heidenreich für die sehr kritische und 

gründliche Bearbeitung. 

127

Lebenslauf 

Persönliche Daten 

Name: 

Addresse: 

Andreas Weichert 

Hörneweg 121 a 

Geburtsdatum: 8.3.63 

26129 Oldenburg 

Geburtsort: 

Staatsangehörigkeit: 

Familienstand: 

Eltern: 

Bremen 

deutsch 

ledig 

Elektrotechniker Manfred Weichert 

Bürokauffrau Luise Weichert, geb. Schröder 

Werdegang 

27. 8.1969 - 10. 6.1975 Grundschule Rablinghausen in Bremen 

27. 8.1975 - 10. 6.1983 Gymnasium am Leibnizplatz in Bremen 

19. 5.1983 Abitur 

1.10.1983 Immatrikulation in Chemie an der Universität Oldenburg 

1. 4.1985 Immatrikulation in Physik an der Universität Oldenburg 

26.10.1987 Vordiplom in Physik 

22.10.90 - 28.2.91 Zivildienst 

1.4.91 Wiederaufnahme des Physikstudiums nach dem Zivildienst 

13.9.93 Diplom in Physik 

1.9.94 - 31.8.96 Wissenschaftlicher Mitarbeiter an der Universität Oldenburg 

1.11.96 - 31.5.97 Wissenschaftlicher Mitarbeiter an der Universität Oldenburg 

Oldenburg, den 10. Dezember 1997 

128

Erklärung 

Hiermit versichere ich, daß ich diese Arbeit selbständig verfaßt und keine andere als die angegebenen 

Quellen und Hilfsmittel benutzt habe. 

(Andreas Weichert) 

129

Zeitreihenanalyse natÃ¼rlicher Systeme mit neuronalen Netzen und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?