10.11.2012 Aufrufe

Mathematische Grundlagen - Ludwig-Maximilians-Universität ...

Mathematische Grundlagen - Ludwig-Maximilians-Universität ...

Mathematische Grundlagen - Ludwig-Maximilians-Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Bernhard Lauth, Michael Zirpel,<br />

Gerhard Zoubek<br />

<strong>Mathematische</strong><br />

<strong>Grundlagen</strong><br />

der klassischen und<br />

probabilistischen<br />

Kausalität<br />

Seminar für Philosophie, Logik und Wissenschaftstheorie,<br />

<strong>Ludwig</strong>-<strong>Maximilians</strong>-<strong>Universität</strong> München<br />

E-Mail: Bernhard.Lauth@lrz.uni-muenchen.de


Inhalt<br />

0. Einleitung ................................................................................................... 3<br />

1. Prolog: Einige Grundbegriffe der klassischen Mechanik ................... 11<br />

2. Ereignisalgebra ....................................................................................... 22<br />

3. Der Faktor Zeit ....................................................................................... 29<br />

4. Ursache und Wirkung ............................................................................ 32<br />

5. Kausalität und bedingte Wahrscheinlichkeit ....................................... 38<br />

6. Zufallsvariablen ...................................................................................... 43<br />

7. Kausale Regressionsmodelle und bedingte Erwartungswerte ........... 55<br />

8. Deterministische Prozesse ...................................................................... 64<br />

9. Transformationen und Invarianzen ...................................................... 75<br />

10. Stochastische Prozesse und die Markoff-Eigenschaft ....................... 86<br />

11. Der Satz von Liouville .......................................................................... 96<br />

12. Zustandsübergänge in der Quantenphysik ...................................... 106<br />

13. Projektoren und Ereignisverbände ................................................... 112<br />

14. Quantenlogik und Quantenwahrscheinlichkeit ............................... 116<br />

15. Kausalität und Lokalität: Die Bellsche Ungleichung ...................... 123<br />

Anhang: Einige mathematische <strong>Grundlagen</strong> ......................................... 124<br />

Literaturangaben ...................................................................................... 135<br />

2


0. Einleitung<br />

Kausale Zusammenhänge spielen eine zentrale Rolle in sämtlichen Natur- und<br />

Sozialwissenschaften. Die Aufklärung solcher Zusammenhänge kann sogar als die<br />

wichtigste Aufgabe der empirischen Wissenschaften angesehen werden, weil<br />

sie die Grundlage für die Herleitung von wissenschaftlichen Erklärungen und<br />

Prognosen darstellt.<br />

Dennoch existiert bis heute keine allgemein akzeptierte Theorie der Kausalität, die<br />

mathematischen oder naturwissenschaftlichen Standards entspricht. Offen sind<br />

insbesondere Fragen wie diese<br />

- Unter welchen Bedingungen können wir von einem kausalen<br />

Zusammenhang zwischen zwei Ereignissen A und B sprechen?<br />

- Welche formalen Eigenschaften besitzt die Kausalrelation (Asymmetrie,<br />

Transitivität, Irreflexivität usw.)?<br />

- Wie hängt der Kausalitätsbegriff mit dem Begriff der bedingten<br />

Wahrscheinlichkeit zusammen?<br />

- Wann darf man von einer empirisch beobachteten Korrelation zwischen<br />

zwei Ereignissen oder Größen auf einen kausalen Zusammenhang<br />

schließen?<br />

und viele andere mehr. Ziel der nachfolgenden Untersuchungen ist die<br />

Formulierung eines mathematischen Formalismus zur Beschreibung von kausalen<br />

Abhängigkeiten, der eine Antwort auf diese und ähnliche Fragen geben kann.<br />

Dieser Formalismus soll (a) hinreichend allgemein, d.h. sowohl in<br />

naturwissenschaftlichen als auch in sozialwissenschaftlichen Kontexten<br />

anwendbar und (b) hinreichend präzise sein, um insbesondere mit statistischen<br />

Standardmethoden (Korrelations- und Regressionsanalyse, Varianzanalyse,<br />

Faktorenanalyse usw.) kombinierbar zu sein.<br />

Im Unterschied zu den gelegentlich so genannten „probabilistischen Theorien der<br />

Kausalität“ (Suppes, Spohn, Stegmüller et al.) habe wir als Ausgangspunkt den<br />

klassischen Kausalitätsbegriff gewählt. Dieser Kausalitätsbegriff hat seinen<br />

historischen Ursprung in der klassischen Physik des 17. Jahrhunderts, bei Galilei,<br />

Kepler und Newton. Seine wichtigsten Eigenschaften sind im 18. und 19.<br />

Jahrhundert von Physikern und Mathematikern wie Hamilton, Euler und Lagrange<br />

ausformuliert worden.<br />

Grundlegend für den klassischen Kausalitätsbegriff ist die Annahme, dass ein<br />

strikt gesetzmäßiger („deterministischer“) Zusammenhang zwischen Ursache und<br />

Wirkung besteht. Damit ist unter anderem gemeint, dass bei gleichen<br />

3


Versuchsbedingungen stets dieselben Versuchsergebnisse auftreten, die<br />

dementsprechend eindeutig vorhersagbar sind. Die Reproduzierbarkeit von<br />

Versuchsbedingungen und Versuchsergebnissen ist daher ein wesentliches<br />

Merkmal der klassischen Physik. Sie bildet zugleich die Grundlage für die<br />

Herleitung von physikalischen Erklärungen und Prognosen, wie wir später noch<br />

genauer sehen werden.<br />

Durch die Reproduzierbarkeit unterscheiden sich deterministische Vorgänge in der<br />

klassischen Physik insbesondere von Zufallsexperimenten im Sinne der<br />

Wahrscheinlichkeitstheorie, weil bei Wiederholungen eines Zufallsexperiments<br />

unterschiedliche Versuchsergebnisse auftreten können, so dass hier nur statistische<br />

Vorhersagen über die Häufigkeit bzw. die Wahrscheinlichkeit der verschiedenen<br />

möglichen Ergebnisse ableitbar sind.<br />

Man kann vermuten, dass die eingeschränkte (statistische) Vorhersagbarkeit von<br />

Versuchsergebnissen zum Beispiel in der klinischen Epidemiologie oder in der<br />

empirischen Sozialforschung entweder auf eine unvollständigen Kenntnis der<br />

kausal relevanten Faktoren („Versuchsbedingungen“) zurückzuführen ist oder auf<br />

das Nichtvorhandensein von deterministischen Gesetzmäßigkeiten, die einen<br />

eindeutigen Zusammenhang zwischen Versuchsbedingungen und<br />

Versuchsergebnissen herstellen könnten. Wir wollen im ersten Fall von einem<br />

„latenten Determinismus“ bzw. „Pseudo-Indeterminismus“ reden und im anderen<br />

Fall von echter Akausalität.<br />

Nach dem heutigen Stand der Forschung kann man echte Akausalität – wenn<br />

überhaupt – nur in der Mikrophysik (Quantenphysik) erwarten. Allerdings ist diese<br />

Annahme umstritten, weil es auch in der Quantenphysik deterministische<br />

Deutungsversuche gibt. Dagegen besitzt die Annahme eines latenten<br />

Determinismus eine gewisse Apriori-Plausibilität in allen Bereichen, wo wir es mit<br />

makroskopischen Phänomenen zu tun haben, bei denen quantenphysikalische<br />

Effekte keine Rolle spielen oder so gering sind, dass sie für praktische Zwecke<br />

vernachlässigt werden können. Dementsprechend sollte nach unserer Auffassung<br />

eine vernünftige Theorie der Kausalität immer vom klassischen (d.h.<br />

deterministischen) Kausalitätsbegriff ausgehen und von dort schrittweise auf die<br />

Analyse von statistischen, latent-deterministischen bzw. pseudoindeterministischen<br />

Zusammenhängen ausgedehnt werden.<br />

Worauf beruht nun die Reproduzierbarkeit von Versuchsbedingungen und<br />

Versuchsergebnissen in der klassischen Physik? Die Antwort auf diese Frage<br />

hängt mit der Art der mathematischen Beschreibung von physikalischen<br />

Vorgängen zusammen. Physikalische Vorgänge werden typischerweise durch<br />

einfache oder partielle Differentialgleichungen modelliert, die in Verbindung mit<br />

geeigneten Anfangs- oder Randbedingungen eindeutige Vorhersagen über das<br />

4


Verhalten des jeweiligen Systems ermöglichen. Bekannte Beispiele sind die<br />

Hamilton- und Lagrange-Gleichungen der klassischen Mechanik, Maxwells<br />

Gleichungen in der Elektrodynamik oder Einsteins Feldgleichungen in der<br />

allgemeinen Relativitätstheorie. Solche Differentialgleichungen beschreiben die<br />

Zustandsübergänge von physikalischen Systemen und werden deshalb in der<br />

Physik auch als „Bewegungsgleichungen“ bezeichnet.<br />

Aus den Bewegungsgleichungen ergeben sich in Verbindung mit entsprechenden<br />

Anfangsbedingungen mathematisch eindeutige Lösungen, die das Verhalten des<br />

Systems vollständig bestimmen. Unter „Anfangsbedingungen“ verstehen wir dabei<br />

den Zustand des Systems zu einem beliebig herausgegriffenen „Anfangs“-<br />

Zeitpunkt t0. Durch Anfangsbedingungen und Bewegungsgleichungen werden die<br />

Zustände des Systems zu allen nachfolgenden Zeitpunkten t > t0 eindeutig<br />

festgelegt. Das allgemeine Muster kausaler Erklärungen und Prognosen in der<br />

Physik lässt sich daher in dem folgendem Schema zusammenfassen:<br />

(1) Bewegungsgleichungen<br />

(2) Anfangsbedingungen<br />

_________________________<br />

(3) eindeutige Lösungen<br />

Der Strich vor der dritten Zeile soll dabei andeuten, dass die Lösungen (3) logisch<br />

und mathematisch aus den Bewegungsgleichungen und Anfangsbedingungen<br />

ableitbar sind. Aus diesem Schema erklärt sich die methodologische Funktion von<br />

deterministischen Theorien für die Erklärung und Prognose von physikalischen<br />

Phänomenen:<br />

(1) Aus deterministischen Theorien lassen sich ex post vollständige Erklärungen<br />

und ex ante eindeutige Vorhersagen über das zukünftige Verhalten des Systems<br />

ableiten. (2) Das Verhalten eines deterministischen Systems in der Zukunft wird<br />

eindeutig und vollständig durch Anfangsbedingungen in der Gegenwart und<br />

Vergangenheit festgelegt. Darin liegt der Kern der deterministischen Konzeption<br />

von Kausalität, die der klassischen Physik zugrunde liegt.<br />

Im ersten Kapitel werden wir kurz einige Grundbegriffe der klassischen Mechanik<br />

rekapitulieren. Die klassische Mechanik bildet den paradigmatischen<br />

Anwendungsfall für die in den nachfolgenden Kapiteln zu entwickelnden<br />

Konzepte. Leser, die nicht so sehr an physikalischen Zusammenhängen können<br />

dieses Kapitel zunächst überspringen und erst bei Bedarf konsultieren.<br />

In den folgenden vier Kapiteln werden wir die wichtigsten Konzepte einführen,<br />

die zur Beschreibung von kausalen Zusammenhängen notwendig sind. Sei dazu S<br />

irgendein physikalisches System. Mit Z bezeichnen wir die Gesamtheit aller<br />

5


möglichen Zustände des Systems, zum Beispiel die möglichen Positionen eines<br />

Teilchens im dreidimensionalen Raum. Jeder Zustand entspricht einer<br />

„Momentaufnahme“ des Systems zu irgendeinem Zeitpunkt t. Für die Analyse von<br />

kausalen Zusammenhängen sind daher weniger die Zustände, sondern die<br />

möglichen Zustandsübergänge ausschlaggebend. Mit � = �t�T Z bezeichnen wir<br />

die möglichen Pfade bzw. „Trajektorien“ des Systems durch den Zustandsraum in<br />

einem vorgegebenen Zeitraum T. Jeder mögliche Pfad � � � ist definiert durch<br />

eine Abbildung �: T � Z , die dem System zu jedem Zeitpunkt t � T einen<br />

Zustand �(t) � Z zuordnet.<br />

Beispiel: In der klassischen Mechanik werden die Zustände eines physikalischen<br />

Systems durch die kanonischen Orts- und Impulskoordinaten, also durch die<br />

Position des Systems im sogenannten Phasenraum festgelegt, d.h. Z � R 2n . Dabei<br />

entspricht n der Anzahl der Ortskoordinaten, die notwendig sind, um die<br />

Positionen aller Teilchen innerhalb des Systems vollständig zu beschreiben. n wird<br />

auch als die Anzahl der Freiheitsgrade des Systems bezeichnet. Dagegen wird in<br />

der Quantenphysik der Zustand eines Systems durch einen Einheitsvektor in einem<br />

unendlich-dimensionalen komplexen Vektorraum (Hilbertraum) definiert, so dass<br />

hier Z � C � ist.<br />

Aus physikalischer Sicht sind natürlich nicht alle Pfade durch den Zustandsraum<br />

möglich, sondern nur solche Pfade bzw. Zustandsübergänge, die den<br />

physikalischen Gesetzmäßigkeiten entsprechen. Im Falle der klassischen<br />

Mechanik sind das alle diejenigen Pfade durch den Phasenraum, die den<br />

Hamiltonschen Bewegungsgleichungen gehorchen. Im Falle der Quantenphysik<br />

werden die Zustandsübergänge durch die sogenannte Schrödinger-Gleichung<br />

bestimmt. In beiden Fällen handelt es sich um Differentialgleichungen erster<br />

Ordnung (in der Zeit), die zu gegebenen Anfangsbedingungen auf mathematisch<br />

eindeutige Lösungen führen. Mit �* bezeichnen wir im folgenden die Gesamtheit<br />

aller Pfade durch den Zustandsraum, die mit den jeweiligen<br />

Bewegungsgleichungen übereinstimmen, d.h. �* ist eine echte Teilmenge von �<br />

= �t�T Z.<br />

Jedem physikalischen Ereignis entspricht umkehrbar eindeutig eine Familie von<br />

Trajektorien im Zustandsraum. Daher identifizieren wir formal jedes mögliche<br />

Ereignis A mit der Gesamtheit aller Pfade durch den Zustandsraum, auf denen das<br />

betreffende Ereignis eintritt, d.h. A = � � � � / � � A �. Ein Ereignis A ist dann<br />

Ursache für einen zeitlich nachfolgenden Effekt B, wenn auf jedem möglichen<br />

Pfad durch den Zustandsraum, auf dem das Ereignis A eintritt, auch der Effekt B<br />

eintritt, d.h. wenn � � A � � � B für alle Trajektorien � � �* gilt.<br />

6


„Übersetzungsregeln“: Die angegebenen Definitionen machen nur von kausalen<br />

Kategorien Gebrauch, setzen also keine spezifischen Annahmen über die<br />

Eintrittswahrscheinlichkeit der Ereignisse A und B voraus. Man kann aber leicht<br />

zeigen, dass zwischen Kausalität und Wahrscheinlichkeit ein einfacher<br />

Zusammenhang besteht. Das bedeutet, dass Aussagen über kausale<br />

Abhängigkeiten zwischen zwei Ereignissen A und B durch logisch äquivalente<br />

Aussagen über die bedingte Wahrscheinlichkeiten p ( B A)<br />

paraphrasiert werden<br />

können. Analog dazu können Aussagen über kausale Abhängigkeiten zwischen<br />

zwei Observablen X und Y in Aussagen über bedingte Erwartungswerte<br />

E( Y X ) übersetzt werden. Ein grundlegendes Merkmal von kausalen<br />

Zusammenhängen ist dabei die sogenannte Markoff-Eigenschaft: Damit ist<br />

gemeint, dass physikalische Effekte bei gegebenen Anfangsbedingungen<br />

stochastisch unabhängig von der kausalen Vorgeschichte des Systems sind. Daraus<br />

folgt, dass die Kenntnis der Vorgeschichte irrelevant für die Vorhersage von<br />

physikalischen Effekten ist. Dementsprechend kann man Aussagen über kausale<br />

Zusammenhänge auch in logisch äquivalente Aussagen über bedingte<br />

stochastische Unabhängigkeiten übersetzen.<br />

Die paradigmatischen Anwendungen für die hier definierten Begriffe sind kausale<br />

Abhängigkeiten in der klassischen Physik. Die Zustandsübergänge eines<br />

mechanischen Systems lassen sich wahlweise im Formalismus der Lagrange- oder<br />

der Hamilton-Mechanik beschreiben 1 . Man kann leicht zeigen, dass – in beiden<br />

Fällen – aufgrund der Bewegungsgleichungen ein strikter kausaler Zusammenhang<br />

zwischen aufeinanderfolgenden Systemzuständen besteht, in der Weise, dass alle<br />

Zustandsübergänge vollständig und eindeutig durch die Bewegungsgleichungen<br />

und die jeweiligen Anfangsbedingungen determiniert sind. Damit bilden die<br />

Zustandsübergänge in der klassischen Mechanik ein paradigmatisches Beispiel für<br />

Vorgänge, die man üblicherweise als deterministische Prozesse bezeichnet. In<br />

Abschnitt 8 werden deterministische Prozesse allgemein diskutiert. Wir werden<br />

dort sehen, dass deterministische Prozesse auf ganz verschiedenen Wegen<br />

definiert werden können, die sich jedoch als logisch und mathematisch äquivalent<br />

erweisen. Insbesondere werden wir zeigen, dass deterministische Prozesse als<br />

spezielle Markoff-Prozesse aufgefasst werden können, bei denen die<br />

Übergangswahrscheinlichkeiten für die aufeinanderfolgenden Systemzustände nur<br />

die Werte 0 oder 1 annehmen können.<br />

Im 9. Kapitel wird das klassische Kausalitätsprinzip (Jedes Ereignis hat eine<br />

Ursache) eingeführt. Wir werden dort zeigen, dass in deterministischen Prozessen<br />

das Kausalitätsprinzip uneingeschränkt gültig ist, d.h. deterministische Prozesse<br />

sind immer streng kausale Prozesse. Die Umkehrung dieser Aussage ist dagegen<br />

1 wobei der Hamiltonsche Formalismus für unsere Zwecke eindeutige Vorzüge besitzt.<br />

Insbesondere erlaubt er eine Darstellung der Zustandsübergänge in „kanonischer Form“.<br />

7


nicht allgemeingültig. Dies hängt mit der Markoff-Eigenschaft zusammen, wonach<br />

die Vorgeschichte irrelevant für das zukünftige Verhalten eines deterministischen<br />

Systems ist. Diese Eigenschaft ist nicht aus dem Kausalitätsprinzip ableitbar.<br />

In Abschnitt 10 betrachten wir Prozesse mit speziellen Eigenschaften, zum<br />

Beispiel Prozesse mit messbaren und stetigen Zustandsübergängen.<br />

Deterministische Prozesse in der klassischen Physik sind translationsinvariant in<br />

dem Sinn, dass die möglichen Zustandsübergänge nur vom zeitlichen Abstand<br />

zwischen zwei aufeinanderfolgenden Systemzuständen abhängig sind. Auf<br />

analoge Weise lässt sich ein Begriff der räumlichen Translationsinvarianz<br />

definieren. Die Invarianzeigenschaften von deterministischen Prozessen hängen<br />

mit fundamentalen Eigenschaften wie der Isotropie und Homogenität von Raum<br />

und Zeit zusammen.<br />

Stochastische Prozesse: In Abschnitt 11 diskutieren wir deterministische<br />

Prozesse, bei denen die Anfangsbedingungen nicht genau bekannt sind. In diesem<br />

Fall können natürlich keine eindeutigen Vorhersagen über das Verhalten des<br />

Systems abgeleitet werden. Wir können aber zumindest Wahrscheinlichkeiten für<br />

alle möglichen Ereignisse berechnen, wenn eine Wahrscheinlichkeitsverteilung für<br />

die möglichen Anfangsbedingungen definiert ist. An die Stelle des klassischen<br />

Schemas tritt daher hier das modifizierte Schema<br />

(1) Bewegungsgleichungen<br />

(2) Wahrscheinlichkeitsverteilung für die möglichen Anfangsbedingungen<br />

_____________________________________________________________<br />

(3) Wahrscheinlichkeitsverteilung für die möglichen Lösungen<br />

Man könnte diese Situation als „stochastischen Determinismus“ bezeichnen. In<br />

Abschnitt 11 werden allgemeine Eigenschaften von stochastisch-deterministischen<br />

Prozessen diskutiert. Wichtige Anwendungen für dieses Konzept findet man in der<br />

klassischen statistischen Mechanik und (mit Einschränkungen) auch in der<br />

Quantenphysik. Damit wird ein erster wichtiger Schritt auf dem Weg zur Analyse<br />

von latent-deterministischen bzw. pseudo-indeterministischen Systemen gemacht.<br />

Grundlegend für die statistische Mechanik ist der Satz von Liouville. Der Satz<br />

besagt, dass eine Wahrscheinlichkeitsdichte für ein System mit n Freiheitsgraden<br />

beim Transport durch den Phasenraum invariant bleibt, wenn die<br />

zugrundeliegenden (Transport-) Bahnen die Hamiltonschen<br />

Bewegungsgleichungen erfüllen. In Kapitel 13 werden wir zeigen, dass diese<br />

Aussage wesentlich verallgemeinert werden kann. Tatsächlich gilt der Satz von<br />

Liouville nicht nur in der klassischen Mechanik, sondern für beliebige<br />

konservative Systeme, sofern gewisse Stetigkeits- und Eindeutigkeitsbedingungen<br />

erfüllt sind.<br />

8


Kausalität und Quantenphysik: In den vier letzten Kapiteln betrachten wir<br />

kausale Zusammenhänge in der Quantenphysik. Die Quantenphysik ist<br />

bekanntlich das einzige ernstzunehmende Beispiel für eine nicht-deterministische<br />

Theorie in der Geschichte der modernen Physik. Deshalb ist es besonders<br />

interessant zu beachten, dass auch die Quantenphysik eine wichtige<br />

deterministische Komponente besitzt. Der Grund dafür ist, dass die<br />

Zustandsübergänge eines abgeschlossenen Quantensystems genau wie in der<br />

klassischen Physik durch Differentialgleichungen beschrieben werden können, die<br />

in Verbindung mit entsprechenden Anfangsbedingungen stets auf eindeutige<br />

Lösungen führen 2 . Somit bilden die Zustandsübergänge einen deterministischen<br />

Prozess im Sinne der oben erwähnten Definitionen (Kapitel 13).<br />

Der indeterministische Charakter eines Quantensystems zeigt sich erst, wenn das<br />

System durch einen Eingriff von außen (zum Beispiel durch einen Messvorgang)<br />

„gestört“ wird. Denn der Messvorgang führt zu einem mehr oder weniger abrupten<br />

(unstetigen) Zustandsübergang, der nicht eindeutig vorhersagbar ist. Man spricht<br />

in diesem Zusammenhang auch gelegentlich vom „Kollaps des Wellenpakets“.<br />

Dementsprechend lassen sich aus den Lösungen der Schrödinger-Gleichung nur<br />

statistische Vorhersagen über die Wahrscheinlichkeiten und Erwartungswerte von<br />

physikalischen Messungen ableiten. Jeder messbaren Größe oder „Observablen“ X<br />

und jedem Bereich B von möglichen Messergebnissen entspricht dabei<br />

nacheindeutig ein abgeschlossener Unterraum im Zustandsraum des betreffenden<br />

Systems. Die Gesamtheit der abgeschlossenen Unterräume bilden daher den<br />

natürlichen „Ereignisverband“ eines Quantensystems 3 . Eindeutige Vorhersagen<br />

lassen sich dabei nur in Bezug auf die „Eigenwerte“ von solchen Observablen<br />

angeben, die den jeweiligen Unterräumen zugeordnet sind. Aus den Eigenwert-<br />

und Bewegungsgleichungen lassen sich daher die notwendigen und hinreichenden<br />

Bedingungen für die Anwendbarkeit des klassischen Kausalitätsbegriffs in der<br />

Quantenphysik ableiten (Kapitel 14).<br />

Ein wesentliches Merkmal der Quantenphysik besteht in dem Umstand, dass nichtkommutierende<br />

Observablen (zum Beispiel Orts- und Impulskoordinaten) nicht<br />

gleichzeitig messbar sind. Dementsprechend gibt es – im Unterschied zur<br />

klassischen statistischen Mechanik – keine gemeinsame<br />

Wahrscheinlichkeitsverteilung für solche Größen. Die tiefliegenden Theoreme von<br />

Gleason, Kochen und Specker zeigen, dass es aus prinzipiellen Gründen nicht<br />

2 gemeint ist natürlich die Schrödinger-Gleichung; vgl. Kapitel 13<br />

3 Mathematisch gesehen handelt es sich dabei um einen nicht-distributiven<br />

orthomodularen Verband. Diese Verbandsstruktur bildet die Grundlage für die<br />

gelegentlich so genannte „Quantenlogik“. Sie unterscheidet sich von der herkömmlichen<br />

oder „klassischen Logik“, weil die Distributivgesetze in der Quantenlogik nur<br />

eingeschränkte Gültigkeit besitzen.<br />

9


möglich ist, die Zustandsbeschreibungen der Quantentheorie so zu erweitern, dass<br />

man eine eindeutige („streuungsfreie“) Zuordnung von numerischen Messwerten<br />

zu allen Observablen des Systems erhält. Diese Ergebnisse bilden den Inhalt des<br />

15. Kapitels.<br />

Ein wichtiger Spezialfall dieser Aussagen ist das Bellsche Theorem (16. Kapitel).<br />

Die Verletzung der Bellschen Ungleichung durch die Quantenphysik zeigt, dass<br />

zwischen räumlich weit entfernten Ereignissen Korrelationen auftreten können, die<br />

klassisch nicht erklärbar sind, wenn man unterstellt, dass alle Observablen<br />

gleichzeitig scharf definierte Werte besitzen (Nicht-Lokalität).<br />

Einordnung in die Literatur: Es gibt in der wissenschaftstheoretischen Literatur<br />

der letzten Jahrzehnte eine Reihe von Ansätzen zu einer mathematischen Theorie<br />

der Kausalität, die den eingangs erwähnten Kriterien zumindest teilweise<br />

entsprechen. Neben den bereits erwähnten probabilistischen Theorien (Suppes,<br />

Stegmüller, Spohn) ist insbesondere die Theorie kausaler Regressionsmodelle von<br />

Rolf Steyer hervorzuheben, sowie die Beiträge von Judea Pearl, Peter Spirtes,<br />

Clark Glymour und Richard Scheines. Im Gegensatz zu den probabilistischen<br />

Theorien der Kausalität werden wir in dieser Untersuchung vom klassischen<br />

Kausalitätsbegriff ausgehen und die Ergebnisse schrittweise auf die Analyse von<br />

latent-deterministischen bzw. pseudo-indeterministischen Systemen ausdehnen.<br />

Das entspricht auch dem Denkansatz bei J. Pearl et al. Im Unterschied zu den<br />

zuletzt genannten Autoren werden wir in der vorliegenden Arbeit eine explizite<br />

Definition des Kausalitätsbegriffs formulieren. Dabei wird sich zeigen, dass eine<br />

Reihe von wichtigen Konzepten (z.B. Steyers „starke“ und „schwache<br />

Kausalitätsbedingungen“) aus den angegebenen Definitionen ableitbar sind.<br />

Dagegen werden sich andere Versuche als untauglich erweisen (so z.B. die<br />

probabilistische Definition des Kausalitätsbegriffs nach Stegmüller und Spohn,<br />

weil sie mit dem klassischen Kausalitätsbegriff unvereinbar ist).<br />

<strong>Mathematische</strong> Hilfsmittel: In der vorliegenden Arbeit wird systematisch<br />

Gebrauch von mathematischen Konzepten und Methoden aus der Maß- und<br />

Wahrscheinlichkeitstheorie gemacht. Die wichtigsten Definitionen und Resultate<br />

sind in einem mathematischen Anhang zusammengefasst. Für eine<br />

ausführlichere Darstellung verweisen wir auf Standardlehrbücher der Maßtheorie,<br />

zum Beispiel H. Bauer: Wahrscheinlichkeitstheorie, 4. Auflage, Berlin 1991.<br />

10


1. Prolog: Einige Grundbegriffe der klassischen Mechanik<br />

Der klassische Kausalitätsbegriff hat seinen historischen Ursprung in der<br />

klassischen Mechanik des 18. und 19. Jahrhunderts. Die physikalischen<br />

<strong>Grundlagen</strong> sind schon von Isaak Newton in seinen Principia Mathematica von<br />

1687 gelegt worden. Die mathematischen Eigenschaften sind dagegen erst in den<br />

nachfolgenden Jahrhunderten, von Euler, Lagrange, Hamilton und anderen<br />

ausformuliert worden. Wir wollen in diesem Kapitel kurz die wichtigsten<br />

Prinzipien der klassischen Mechanik rekapitulieren. Sie bilden den Ausgangspunkt<br />

für das allgemeine Studium von deterministischen Systemen und<br />

deterministischen Prozessen in den nachfolgenden Kapiteln.<br />

Dazu betrachten wir im folgenden ein System, das aus N verschiedenen Teilchen<br />

besteht, die wir mit den Indizes i = 1,…,N nummerieren wollen. Jedes Teilchen<br />

wird idealisiert als ein „Massepunkt“ ohne räumliche Ausdehnung behandelt. 4 Die<br />

Position des Teilchens Nr. i zu irgendeinem Zeitpunkt t im dreidimensionalen<br />

Raum kann dann durch die Angabe von drei kartesischen Koordinaten<br />

xi i i<br />

( t),<br />

y ( r),<br />

z ( t)<br />

beschrieben werden. Für ein System von N Teilchen benötigen wir dann insgesamt<br />

n � 3� N Koordinaten<br />

x1( t),<br />

y1(<br />

t),<br />

z1(<br />

t),...,<br />

xN<br />

( t),<br />

yN<br />

( t),<br />

zN<br />

( t)<br />

Diese Koordinaten bestimmen dann eindeutig die Konfiguration des Systems zur<br />

Zeit t. Dementsprechend wird der 3N-dimensionale Vektorraum R 3N als<br />

Konfigurationsraum des Systems bezeichnet.<br />

In der Praxis wird der Bewegungsspielraum der Teilchen oft durch sogenannte<br />

Zwangsbedingungen eingeschränkt, die zur Folge haben, dass weniger<br />

Koordinaten ausreichen, um die Konfiguration des Systems zu beschreiben. Wenn<br />

wir zum Beispiel Teilchen betrachten, die sich nur auf einer Kugeloberfläche<br />

bewegen können, dann genügen zwei Koordinaten (zum Beispiel der Längen- und<br />

der Breitengrad), um die Positionen eindeutig zu bestimmen. Oder wenn wir ein<br />

Fadenpendel betrachten, das nur in einer Ebene schwingen kann, dann genügt eine<br />

4 Eine solche Idealisierung ist zulässig, wenn die Ausdehnung der Teilchen klein im<br />

Verhältnis zu den betrachteten Abständen ist. „So kann man z.B. die Planeten als<br />

Massenpunkte annehmen, wenn man ihre Bewegung um die Sonne untersucht, dagegen<br />

freilich nicht, wenn man ihre tägliche Drehung betrachtet.“ (L. D. Landau, E. M. Lifchitz<br />

1987, S. 1)<br />

11


einzige Koordinate (zum Beispiel der Winkel, der die Auslenkung des Pendels aus<br />

seiner Gleichgewichtslage beschreibt). Die minimale Anzahl von Koordinaten, die<br />

benötigt werden, um die Konfiguration eines Teilchensystems unter gegebenen<br />

Zwangsbedingungen vollständig zu beschreiben, wird als die Anzahl der<br />

Freiheitsgrade des Systems bezeichnet. Im Allgemeinen kann es sich dabei um<br />

nicht-kartesische Koordinaten handeln, die wir im folgenden mit<br />

q1 n<br />

( t),...,<br />

q ( t)<br />

bezeichnen wollen. Man spricht in diesem Zusammenhang auch von<br />

generalisierten Koordinaten. Grundsätzlich gilt dabei n � 3N<br />

, wenn das System<br />

aus N Teilchen besteht. Der entsprechende Konfigurationsraum ist der R n .<br />

Die Konfiguration eines Teilchensystems ändert sich im Zeitablauf, da die<br />

Teilchen sich bewegen. Wir gehen davon aus, dass die Teilchenbahnen keine<br />

Knicke und keine Sprünge aufweisen, d.h. dass die Teilchenkoordinaten stetig<br />

nach der Zeit differenzierbar sind. Wenn man die erste Ableitung der Koordinaten<br />

nach der Zeit bildet, erhält man die entsprechenden Geschwindigkeiten, die wir<br />

mit<br />

� ( t),...,<br />

q�<br />

( t)<br />

q1 n<br />

bezeichnen. 5 Wir betrachten nun die Konfigurationen des Systems in einem<br />

beliebig langen Zeitraum T und definieren eine Abbildung �*: T � R n so, dass für<br />

alle Zeitpunkte t � T die Gleichung<br />

ω* ( ) � � q1(<br />

t),...,<br />

q ( t)<br />

�<br />

t n<br />

gilt. �* ist also eine Funktion, die zu jedem Zeitpunkt innerhalb des<br />

Beobachtungszeitraums die entsprechende Konfiguration angibt, d.h. �*<br />

beschreibt die vollständige Bahn des Systems durch den Konfigurationsraum. Im<br />

folgenden sei<br />

� � � R n<br />

L t�T<br />

die Gesamtheit aller möglichen Bahnen �: T � R n durch den Konfigurationsraum.<br />

Eine Bahn � � �L wird als C � -Bahn bezeichnet, wenn alle n Komponenten des<br />

Vektors ω( t ) stetig und beliebig oft nach t differenzierbar sind. Mit �L �<br />

5 Im Falle von kartesischen Koordinaten handelt es bei den Größen x� i ( t),<br />

y�<br />

i ( t),<br />

z�<br />

i ( t)<br />

um<br />

die Komponenten eines dreidimensionalen Vektors, der den Betrag der Geschwindigkeit<br />

und die Bewegungsrichtung des i-ten Teilchens zum Zeitpunkt t bestimmt.<br />

12


ezeichnen wir die Gesamtheit aller C � -Bahnen in �L. Damit können wir die<br />

Teilchenkoordinaten und –geschwindigkeiten nicht nur auf der tatsächlichen Bahn,<br />

sondern auf allen möglichen Bahnen durch den Konfigurationsraum beschreiben.<br />

Sei dazu pri : R n � R die Projektionsfunktion, die jedem n-tupel von reellen<br />

Zahlen seine i-te Komponente zuordnet, d.h. pri ( q1<br />

,..., qn<br />

) � qi<br />

. Mit<br />

qi ( ω,<br />

t)<br />

� pri<br />

( ω(<br />

t))<br />

bezeichnen wir dann den Wert der i-ten Ortskoordinate zur Zeit<br />

t, falls sich das System auf der Bahn � durch den Konfigurationsraum bewegt.<br />

Definitionsgemäß ist also<br />

ω( ) � � q1(<br />

ω,<br />

t),...,<br />

q ( ω,<br />

t)<br />

�<br />

t n<br />

und für die tatsächliche Teilchenbahn �* gilt<br />

qi � i<br />

( t)<br />

q ( ω*,<br />

t)<br />

Wenn � � �L � ist, dann können wir die Ableitungen q� 1(<br />

ω,<br />

t),...,<br />

q�<br />

n(<br />

ω,<br />

t)<br />

bilden. Sie<br />

beschreiben die Geschwindigkeit der Teilchen zum Zeitpunkt t, falls sich das<br />

System auf der Bahn � durch den Konfigurationsraum bewegt. Wiederum gilt für<br />

die tatsächlichen Bahnen die Bedingung<br />

� ( t)<br />

� q�<br />

( ω*,<br />

t)<br />

qi i<br />

Ein Grundpostulat der klassischen Mechanik besagt nun, dass man jedem<br />

Teilchensystem eine Größe L zuordnen kann, die nur von den möglichen<br />

Teilchenkoordinaten und ihren zeitlichen Ableitungen abhängt:<br />

L � f q ,..., q , q�<br />

,..., q�<br />

( 1 n 1 n<br />

Dabei wollen wir annehmen, das die Abbildung f : R 2n � R in allen Argumenten<br />

stetig und beliebig oft differenzierbar ist. 6 Wenn man f auf die tatsächlichen<br />

Teilchenbahnen anwendet, erhält man eine Funktion L : �L � � T � R, die nur von<br />

� und t abhängt, nämlich<br />

L (�,t) = q ( �, t),...,<br />

q ( �,<br />

t),<br />

q�<br />

( �,<br />

t),...,<br />

q�<br />

( �,<br />

t))<br />

f ( 1<br />

n 1<br />

n<br />

6 In den meisten Fällen entspricht L der Differenz T – V aus kinetischer und potentieller<br />

Energie. Dabei ist T = f ( q� 1 ,..., q� n)<br />

eine Größe, die nur von den Geschwindigkeiten<br />

abhängt und V = f(q1,...,qn) eine Größe, die typischerweise nur von den Ortskoordinaten<br />

abhängt. Im Allgemeinen kann f auch noch eine „explizite“ Zeitabhängigkeit aufweisen,<br />

so dass L = q ,..., q , q�<br />

,..., q�<br />

, t)<br />

gilt.<br />

f ( 1 n 1 n<br />

)<br />

13


L wird als Lagrangefunktion bezeichnet. Wir betrachten nun die Konfiguration<br />

des Systems zu zwei beliebig herausgegriffenen Zeitpunkten t1 und t2. Das<br />

Zeitintegral über L(�,t) wird als Wirkungsintegral bezeichnet<br />

t2<br />

S(�) = � L( , t) dt<br />

t<br />

�<br />

Die Wirkung ist also eine Größe, die sich im Unterschied zu L nicht auf einen<br />

einzelnen Zeitpunkt t, sondern auf die gesamte Bewegung (auf die Bahn) des<br />

Systems im Konfigurationsraum bezieht. Das Hamiltonsche Wirkungsprinzip<br />

besagt, dass nur solche Bahnen physikalisch realisierbar sind, auf denen das<br />

Wirkungsintegral einen extremalen Wert annimmt. Sei dazu A = �(t1) die<br />

Ausgangskonfiguration des Systems zur Zeit t1 und B = �(t2) die<br />

Endkonfiguration zur Zeit t2. Um das Wirkungsprinzip zu formulieren, betrachten<br />

wir sämtliche Bahnen �´ durch den Konfigurationsraum, die mit der<br />

vorgegebenen Bahn � hinsichtlich der Ausgangs- und der Endkonfiguration<br />

übereinstimmen, also alle Bahnen �´, die die Bedingungen �´(t1) = �(t1) und<br />

�´(t2) = �(t2) erfüllen. Die Gesamtheit dieser Bahnen bezeichnen wir mit �AB.<br />

1<br />

Das Wirkungsintegral S ist damit ein „Funktional“, das jeder Funktion � � �AB<br />

eine reelle Zahl S(�) zuordnet. Eine Bahn � � �AB erfüllt das angegebene<br />

Extremalprinzip, wenn entweder S(�´) < S(�) für alle Bahnen �´� �AB oder S(�´)<br />

< S(�) für alle �´� �AB mit �´� � gilt. Mit anderen Worten: Eine mögliche Bahn<br />

� erfüllt das Wirkungsprinzip, wenn das Wirkungsintegral auf der betreffenden<br />

Bahn entweder ein Minimum oder ein Maximum ist. Das Auffinden solcher<br />

Extrema ist ein mathematisches Problem, das mit den Mitteln der<br />

Variationsrechnung gelöst werden kann 7 . Sei dazu � ��/ � � R �, eine<br />

einparametrige Familie von Bahnen �� � �AB. Die Parametrisierung soll so<br />

durchgeführt werden, dass benachbarten Bahnen benachbarte Parameterwerte<br />

zugeordnet werden. Dann gilt definitionsgemäß<br />

t<br />

2<br />

�<br />

S( �� ) � f ( qi<br />

( ��<br />

, t),<br />

q�<br />

i ( ��<br />

, t))<br />

dt<br />

Um die extremale Bahn zu finden, bilden wir die Ableitung<br />

t<br />

1<br />

7 vgl. zum Beispiel H. Goldstein: Klassische Mechanik, Wiesbaden 1987, S. 33 ff.<br />

14


t<br />

2 �S<br />

�f<br />

�qi<br />

�f<br />

�q�<br />

i<br />

� ( � ) dt<br />

��<br />

��<br />

�q<br />

��<br />

�q�<br />

��<br />

t i<br />

1<br />

Durch partielle Integration des zweiten Summanden ergibt sich der Ausdruck<br />

t<br />

2<br />

��<br />

t i<br />

1<br />

2<br />

i<br />

2<br />

2<br />

�f<br />

� qi<br />

�f<br />

�qi<br />

�qi<br />

d �f<br />

dt � �<br />

�q�<br />

���t<br />

�q�<br />

��<br />

��<br />

��<br />

dt �q�<br />

i<br />

i<br />

t<br />

t<br />

1<br />

t<br />

1<br />

i<br />

t i i<br />

Darin verschwindet der erste Term, weil alle Kurven �� an den Endpunkten A und<br />

B übereinstimmen, so dass dort �q i ��<br />

= 0 wird. Durch Einsetzen in die<br />

vorhergehende Gleichung ergibt sich also<br />

S<br />

t<br />

i<br />

t i i i �<br />

2 � �f<br />

d �f<br />

�q<br />

� �<br />

��<br />

�� ( )<br />

�q<br />

dt �q�<br />

�<br />

1<br />

Auf der extremalen Bahn muss �S ��<br />

= 0 gelten. Diese Bedingung ist für<br />

beliebige Variationen der Bahnkoordinaten qi nur dann erfüllbar 8 , wenn für alle i =<br />

1,…,n die Koeffizienten<br />

�f<br />

�q<br />

i<br />

�<br />

d<br />

dt<br />

sind. Diese Bedingungen werden auch als die Euler-Lagrange-Gleichungen<br />

bezeichnet. Aus diesen Gleichungen folgt unmittelbar, dass eine Bahn � � �AB<br />

nur dann dem Hamiltonschen Wirkungsprinzip entspricht, wenn die Gleichungen<br />

�f<br />

�q�<br />

i<br />

� 0<br />

d � L � L<br />

(ω,<br />

t)<br />

= ( ω,<br />

t)<br />

dt � q�<br />

� q<br />

i<br />

für alle Zeitpunkte t mit t1 < t < t2 und alle Koordinaten i = 1,...,n erfüllt sind.<br />

Beispiel: Als Beispiel betrachten wir ein Teilchen der Masse m, das sich in einem<br />

ortsabhängigen Potential V( x,<br />

y,<br />

z)<br />

bewegt (Wir verwenden kartesische<br />

Koordinaten). Die Lagrange-Funktion hat dann die Form<br />

8 nach dem „Fundamentallemma der Variationsrechnung“<br />

i<br />

dt<br />

dt<br />

15


1 2 2 2<br />

L � m(<br />

x�<br />

� y�<br />

� z�<br />

) �V<br />

( x,<br />

y,<br />

z)<br />

2<br />

Und die zugehörigen Lagrange-Gleichungen lauten<br />

�V<br />

� �<br />

�x<br />

d<br />

dt<br />

�V<br />

d �V<br />

mx�<br />

, � � my�<br />

, � �<br />

�y<br />

dt �z<br />

Das sind gerade die Newtonschen Bewegungsgleichungen für ein Teilchen in<br />

einem Potential V, wenn man berücksichtigt, dass die einwirkende Kraft gerade<br />

dem negativen Gradienten des Potentials entspricht.<br />

Bei den Lagrange-Gleichungen handelt es sich um gewöhnliche<br />

Differentialgleichungen zweiter Ordnung für die generalisierten Koordinaten.<br />

Solche Gleichungen besitzen – unter gewissen sehr allgemeinen Voraussetzungen<br />

- mathematisch eindeutige Lösungen, sobald die entsprechenden<br />

Anfangsbedingungen, nämlich die Teilchenkoordinaten und –geschwindigkeiten<br />

zu einem beliebigen Zeitpunkt t = 0 gegeben sind. Das bedeutet, dass man die<br />

Positionen und Geschwindigkeiten der Teilchen zu jedem späteren Zeitpunkt t > 0<br />

vorhersagen kann, sobald man die Anfangsbedingungen kennt. Übersichtlich lässt<br />

sich der Sachverhalt durch das folgende Flussdiagramm illustrieren:<br />

Bewegungsgleichungen<br />

d �L<br />

�L<br />

�<br />

dt �q�<br />

�q<br />

i<br />

i<br />

Lösungen<br />

q ( t),...,<br />

q ( t)<br />

1<br />

q�<br />

( t),...,<br />

q�<br />

1<br />

Eine Alternative zum eben beschriebenen Lagrange-Formalismus ist die sog.<br />

Hamiltonsche Formulierung der klassischen Mechanik. Dabei kann das Verhalten<br />

eines physikalischen Systems durch ein System von Differentialgleichungen erster<br />

Ordnung beschrieben werden, was in manchen Kontexten vorteilhaft ist. Dazu<br />

n<br />

n<br />

( t)<br />

d<br />

dt<br />

mz�<br />

Anfangsbedingungen<br />

q ( 0),...,<br />

q ( 0)<br />

1<br />

q�<br />

( 0),...,<br />

q�<br />

1<br />

n<br />

n<br />

( 0)<br />

16


definieren wir für jede Ortskoordinate qi eine „kanonisch konjugierte“<br />

Impulskoordinate pi durch die Vorschrift<br />

pi =<br />

� L<br />

� q�<br />

Die Funktionen qi und pi werden als kanonische Koordinaten bezeichnet. Die<br />

Größe<br />

H = � q�<br />

� L<br />

i<br />

n<br />

� pi i<br />

i�1<br />

wird als Hamilton-Funktion des Systems bezeichnet. Sie entspricht im<br />

Allgemeinen der Gesamtenergie (= Summe aus kinetischer und potentieller<br />

Energie) des Systems. Wir betrachten das totale Differential<br />

n<br />

�<br />

i�1<br />

�L<br />

�L<br />

dH = ( pidq�<br />

i � q�<br />

idpi<br />

� dqi<br />

� dq�<br />

�q<br />

�q�<br />

Wenn man die Lagrange-Gleichungen und die Definition der kanonischen Impulse<br />

berücksichtigt, dann erhält man daraus<br />

n<br />

dH = �(<br />

q� idpi<br />

� p� idqi )<br />

i�1<br />

Unter gewissen mathematischen Voraussetzungen 9 existiert eine Funktion<br />

f: R 2n � R, so dass H(�,t) = f(q1(�,t),...,qn(�,t), p1(�,t),...,pn(�,t)) für alle Bahnen<br />

� � �L � und alle t � T gilt. Daraus ergibt sich für das totale Differential die<br />

Gleichung<br />

dH<br />

n<br />

H<br />

q dq<br />

H<br />

p dp<br />

� �<br />

= �(<br />

i � i )<br />

� �<br />

i�1<br />

Ein Vergleich der beiden letzten Formeln ergibt die Hamiltonschen<br />

Bewegungsgleichungen<br />

9 vorausgesetzt wird die Existenz von Funktionen gi: R 2n � R, so dass<br />

q� i( �, t) � gi( q1( �, t),..., qn( �, t), p1 ( �, t),..., pn( �,<br />

t))<br />

für alle � � �L � und alle t � T<br />

gilt. Wir unterstellen im folgenden stets, dass die Funktion f : R 2n � R stetig und in allen<br />

Argumenten beliebig oft differenzierbar, also eine C � -Funktion ist.<br />

i<br />

i<br />

i<br />

i<br />

i<br />

)<br />

17


q�<br />

i<br />

�H<br />

= �<br />

�p<br />

i<br />

und<br />

p�<br />

i<br />

�H<br />

= �<br />

�q<br />

Dabei handelt es sich um ein System von 2n Differentialgleichungen erster<br />

Ordnung für die kanonischen Koordinaten. Diese Gleichungen führen auf<br />

eindeutige Lösungen, sobald die zugehörigen Anfangsbedingungen, d.h. die<br />

kanonischen Orts- und Impulskoordinaten zu irgendeinem beliebig<br />

herausgegriffenen „Anfangszeitpunkt“ t = 0 bekannt sind. Das bedeutet, dass man<br />

die Positionen und Bewegungen der Teilchen für alle nachfolgenden Zeitpunkte<br />

berechnen kann, sobald die Anfangsbedingungen bekannt sind. Wir können diesen<br />

Sachverhalt – in Analogie zur Lagrange-Mechanik – wieder durch ein<br />

entsprechendes Flussdiagramm veranschaulichen:<br />

Bewegungsgleichungen<br />

�H<br />

�H<br />

q�<br />

i � , p�<br />

i � �<br />

�p<br />

�q<br />

i<br />

i<br />

Lösungen<br />

q ( t),...,<br />

q ( t)<br />

1<br />

p ( t),...,<br />

p ( t)<br />

1<br />

i<br />

Anfangsbedingungen<br />

q ( 0),...,<br />

q ( 0)<br />

p<br />

1<br />

1<br />

( 0),...,<br />

Anmerkung: Dieses Flussdiagramm kann man ebenso wie das vorhergehende als<br />

Beispiel für ein allgemeines Schema zur Herleitung von physikalischen<br />

Vorhersagen auffassen, das wir im folgenden als das DAL-Schema bezeichnen<br />

wollen. Die Buchstaben DAL stehen dabei als Abkürzungen für D wie<br />

Differentialgleichungen, A wie Anfangsbedingungen und L wie Lösungen. Die<br />

Herleitung besteht im Wesentlichen aus drei Schritten, die sich folgendermaßen<br />

charakterisieren lassen:<br />

n<br />

(1) Man formuliert ein System von Differentialgleichungen (den<br />

sogenannten „Bewegungsgleichungen“), die die Zustandsänderungen<br />

des jeweiligen physikalischen Systems beschreiben.<br />

n<br />

n<br />

p<br />

n<br />

( 0)<br />

18


(2) Man bestimmt die Anfangsbedingungen, also den Zustand des Systems<br />

zu einem beliebigen Anfangszeitpunkt t = 0.<br />

(3) Aus den Bewegungsgleichungen und den Anfangsbedingungen ergeben<br />

sich mathematisch eindeutige Lösungen, die das Verhalten des Systems<br />

zu allen nachfolgenden Zeitpunkten t > 0 vollständig festlegen.<br />

Physikalische Systeme, deren Verhalten sich mithilfe des DAL-Schemas<br />

beschreiben lässt, werden im folgenden als deterministische Systeme bezeichnet.<br />

Das charakteristische Merkmal von deterministischen Systemen besteht in dem<br />

Umstand, dass jedem möglichen Zustand des Systems zu irgendeinem Zeitpunkt t<br />

eindeutig bestimmte Nachfolgerzustände zu allen nachfolgenden Zeitpunkten<br />

zugeordnet sind. Anders ausgedrückt: Die Zustandsänderungen eines<br />

deterministischen Systems sind eindeutig und vollständig durch die Naturgesetze<br />

festgelegt.<br />

Im folgenden sei Z � R 2n die Gesamtheit aller möglichen Werte der kanonischen<br />

Orts- und Impulskoordinaten. Z wird als klassischer Phasenraum bezeichnet. Mit<br />

�H = �t�T Z<br />

bezeichnen wir die Gesamtheit aller möglichen Pfade des Systems durch den<br />

Phasenraum. Solche Pfade werden auch als Trajektorien bezeichnet. Jeder Pfad �<br />

� �H hat definitionsgemäß die Form �: T � Z, d.h. jedes �(t) ist ein 2n-Tupel<br />

von reellen Zahlen. In Analogie zu unserem früheren Vorgehen definieren wir<br />

Funktionen qi ( ω,<br />

t)<br />

und pi ( ω,<br />

t)<br />

durch die Projektionen<br />

Definitionsgemäß gilt dann<br />

qi i<br />

i<br />

i�<br />

n<br />

( ω,<br />

t)<br />

= pr ( ω,<br />

t)<br />

und p ( ω,<br />

t)<br />

= pr ( ω,<br />

t)<br />

�(t) = < q1(�,t),..., qn(�,t), p1(�,t),..., pn(�,t) ><br />

Nach Voraussetzung gibt es eine C � -Funktion f: R 2n � R, so dass H(�,t) =<br />

f(q1(�,t),...,qn(�,t), p1(�,t),...,pn(�,t)) für alle � � �H und alle t � T gilt. Aufgrund<br />

der vorhergehenden Überlegungen sind nur solche Bahnen durch den Phasenraum<br />

physikalisch realisierbar, die die Hamiltonschen Bewegungsgleichungen erfüllen.<br />

Im Folgenden sei �H* die Gesamtheit aller Trajektorien in �H, die den<br />

Bewegungsgleichen entsprechen, d.h. � � �H* gilt genau dann, wenn die<br />

Gleichungen<br />

19


�H<br />

q�<br />

i ( �,<br />

t)<br />

= � ( �,<br />

t)<br />

�p<br />

�H<br />

p�<br />

i ( �,<br />

t)<br />

= � ( �,<br />

t)<br />

�q<br />

für alle i = 1,...,n und alle t � T erfüllt sind. Die Hamiltonschen Gleichungen sind<br />

gewöhnliche Differentialgleichungen erster Ordnung für die kanonischen<br />

Koordinaten. Diese Gleichungen besitzen eindeutige Lösungen 10 , wenn die<br />

entsprechenden Anfangsbedingungen, also die Orte und Impulse der Teilchen zu<br />

irgendeinem Zeitpunkt t gegeben sind. Wir definieren Funktionen Zt : �H � Z so,<br />

dass<br />

Zt(�) = �(t)<br />

für alle Trajektorien � � �H und alle Zeitpunkte t gilt. Zt(�) repräsentiert also den<br />

Zustand des Systems zur Zeit t, falls sich das System auf der Bahn � durch den<br />

Phasenraum bewegt. Die Existenz von eindeutigen Lösungen bedeutet, dass es zu<br />

je zwei Zeitpunkten t, t´ mit t < t´und zu jedem möglichen Zustand z � Z des<br />

Systems zur Zeit t genau einen möglichen Nachfolgezustand z´ � Z gibt, so dass<br />

Zt(�) = z � Zt´(�) = z´<br />

für alle Trajektorien � � �H* gilt. Mit anderen Worten: Wenn das System sich zur<br />

Zeit t im Zustand z befindet, dann muss es aufgrund der Bewegungsgleichungen in<br />

den eindeutig bestimmten Nachfolgezustand z´ zur Zeit t´ übergehen. Eine Familie<br />

(Zt)t�T von Observablen, die diese Eigenschaft besitzen, werden wir im folgenden<br />

auch als deterministischen Prozess bezeichnen. Die angegebene Eigenschaft<br />

impliziert, dass ein strikter kausaler Zusammenhang zwischen<br />

aufeinanderfolgenden Systemzuständen besteht, d.h. es gibt Funktionen f t,t´<br />

: Z �<br />

Z so dass Zt´ ft,<br />

t´<br />

� Zt<br />

� für alle Zeitpunkte t, t´ gilt. 11 Wir schreiben dafür<br />

10 Nach Voraussetzung ist f eine C � -Funktion. Daraus folgt, dass die partiellen<br />

Ableitungen �H �qi<br />

und � H / �pi<br />

im ganzen Phasenraum eine sog. Lipschitz-Bedingung<br />

erfüllen. Die Existenz und Eindeutigkeit der Lösungen kann dann aus bekannten<br />

Theoremen für Systeme von Differentialgleichungen erster Ordnung gefolgert werden;<br />

vgl. zum Beispiel W. Walter 1990, S. 79<br />

11 Da wir vorausgesetzt haben, dass in der Hamilton-Funktion keine explizite<br />

Zeitabhängigkeit auftritt, ist die Funktion ft,t´ tatsächlich nur vom Abstand t´- t der<br />

beiden Zeitpunkte abhängig. Wir sprechen daher von einem (zeitlich)<br />

translationsinvarianten Prozess (� „Homogenität der Zeit“).<br />

i<br />

i<br />

20


abkürzend Zt � * Zt´<br />

Unter Vorgriff auf die Definitionen in den nachfolgenden<br />

Kapiteln können wir diese Ergebnisse wie folgt zusammenfassen:<br />

Satz: Sei Z � R 2n der Phasenraum für ein System mit n Freiheitsgraden und sei<br />

�H* � �t�T Z die Gesamtheit aller Trajektorien im Phasenraum, die den<br />

Hamiltonschen Bewegungsgleichungen entsprechen. Ferner sei Zt(�) = �(t) für<br />

alle � � �t�T Z und alle t � T. Dann gilt:<br />

(1) (Zt)t�T ist ein zeitlich translationsinvarianter deterministischer Prozess<br />

(2) Es besteht ein strikter kausaler Zusammenhang zwischen aufeinanderfolgenden<br />

Systemzuständen, d.h. für alle Zeitpunkte t, t´ mit t < t´ gilt Zt �<br />

* Zt´<br />

21


2. Ereignisalgebra<br />

Physikalische Systeme und ihre Zustände: Wir entwickeln im Folgenden einen<br />

mathematischen Formalismus, der dazu geeignet ist, die möglichen Zustände und<br />

Zustandsübergänge von unterschiedlichen physikalischen Systemen zu<br />

beschreiben. In den nachfolgenden Kapiteln wird sich zeigen, dass dieser<br />

Formalismus auch dazu verwendet werden kann, kausale Zusammenhänge<br />

zwischen physikalischen Ereignissen zu analysieren.<br />

Sei dazu S ein beliebiges physikalisches System. Mit Z bezeichnen wir die<br />

Gesamtheit aller möglichen Zustände, in denen sich das System zu irgendeinem<br />

Zeitpunkt befinden kann. Jeder Zustand repräsentiert dabei eine mögliche<br />

„Momentaufnahme“ des Systems zu einem vorgegebenen Zeitpunkt t. Die<br />

Gesamtheit Z aller möglichen Zustände wird daher auch als Zustandsraum<br />

bezeichnet. Ein paar einfache Beispiele mögen den Sinn dieser Definitionen<br />

verdeutlichen.<br />

Beispiel 1: Als einfachstes Beispiel betrachten wir die Gesamtheit aller möglichen<br />

Positionen eines physikalischen Teilchens im dreidimensionalen Raum. Jede<br />

mögliche Position des Teilchens im Raum kann eindeutig durch Angabe von drei<br />

Ortskoordinaten x, y, z bestimmt werden. Dementsprechend ist ein geeigneter<br />

Zustandsraum Z = R 3 (R = die Menge der reellen Zahlen). Jeder Zustand kann<br />

dann anschaulich als Punkt in einem kartesischen Koordinatensystem dargestellt<br />

werden.<br />

x<br />

z<br />

p<br />

y<br />

22


Aus physikalischer Sicht ist dies natürlich eine höchst unvollständige<br />

Zustandsbeschreibung. Wenn wir nämlich die Bewegungen des Teilchens<br />

vorhersagen wollen, dann benötigen wir nicht nur die Orts-, sondern auch die<br />

kanonisch konjugierten Impulskoordinaten, wie wir im ersten Kapitel gesehen<br />

haben. Im Augenblick sind wir aber nicht an der Vollständigkeit unserer<br />

Zustandsbeschreibungen interessiert, sondern an möglichst einfach strukturierten<br />

Beispielen.<br />

Beispiel 2: Wir betrachten nun ein System von N verschiedenen Teilchen. Jedes<br />

Teilchen kann wieder durch drei kartesische Koordinaten lokalisiert werden. Um<br />

die Konfiguration des Teilchensystems vollständig zu beschreiben, benötigen wir<br />

also 3 N kartesische Koordinaten x 1 , y1,<br />

z1,...,<br />

xN<br />

, yN<br />

, zN<br />

. Der entsprechende<br />

Zustandsraum ist der 3N -dimensionale Konfigurationsraum, Z = R 3N . Für eine<br />

physikalisch vollständige Beschreibung benötigen wir allerdings zu jeder<br />

Ortskoordinate noch die entsprechende „kanonisch konjugierte“ Impulskoordinate.<br />

Bei Verwendung von kartesischen Koordinaten brauchen wir also insgesamt<br />

6N Koordinaten, um den Zustand des Systems zu beschreiben. Der zugehörige<br />

Zustandsraum ist der 6N -dimensionale Phasenraum, Z = R 6N .<br />

Beispiel 3: In der Quantenphysik besitzen die Teilchen keine scharf definierten<br />

Orte und Impulse. Um den Zustand eines N-Teilchen-Quantensystems (ohne Spin)<br />

vollständig zu beschreiben benötigen wir eine komplexe „Wellenfunktion“ (vgl.<br />

unten, Kap. 15 ff.). Diese Wellenfunktion hat keine anschauliche Bedeutung. Aus<br />

ihr lassen sich Wahrscheinlichkeiten und Erwartungswerte für alle möglichen<br />

Ergebnisse von Orts- oder Impulsmessungen an den Teilchen ableiten, wie wir<br />

später sehen werden. Der zugehörige Zustandsraum ist Z = L 2 (R 3N ) der Raum aller<br />

quadratintegrierbaren komplexen Funktionen auf dem R 3N .<br />

Wenn wir kausale Zusammenhänge analysieren wollen, müssen wir die<br />

Zustandsübergänge des Systems in einem längeren oder kürzeren<br />

„Beobachtungszeitraum“ T betrachten. Dabei ist T irgendeine linear geordnete<br />

Menge von Zeitpunkten (im Normalfall ein offenes Zeitintervall T � R). Wenn S<br />

ein physikalisches System mit einem Zustandsraum Z ist, dann bezeichnen wir mit<br />

� = �t�T Z<br />

die Gesamtheit aller möglichen Pfade („Trajektorien“) durch den Zustandsraum<br />

des Systems. Jeder Pfad � � � ist dabei eine Abbildung �: T � Z, die dem<br />

System zu jedem Zeitpunkt t einen Zustand �(t) � Z zuordnet. � repräsentiert<br />

also die möglichen Zustandsübergänge des Systems.<br />

23


Beispiel 1: Sei wieder Z = R 3 die Gesamtheit aller möglichen Positionen eines<br />

Teilchens im dreidimensionalen Raum. Dann ist � = �t�T R 3 die Gesamtheit aller<br />

möglichen Bahnen, auf denen sich das Teilchen im Beobachtungszeitraum T durch<br />

den Raum bewegen kann. Jede Bahn � � � ist definitionsgemäß eine Funktion<br />

�: T �R 3 , die dem Teilchen zu jedem Zeitpunkt t eine Position im Raum<br />

zuordnet. Anschaulich kann jede Bahn als eine parametrisierte Kurve in einem<br />

kartesischen Koordinatensystem dargestellt werden. Auf der Kurve sind<br />

Markierungen angebracht, die zeigen, zu welchem Zeitpunkt sich das Teilchen an<br />

der betreffenden Stelle befindet. Dabei ist definitionsgemäß p = �(t) die Position<br />

des Teilchens zur Zeit t, falls sich das Teilchen auf der Bahn � durch den Raum<br />

bewegt.<br />

x<br />

�<br />

z<br />

p = �(t)<br />

Beispiel 2: Sei wieder Z = R 6N der Phasenraum für ein N-Teilchensystem. Dann<br />

ist � = �t�T R 6N die Gesamtheit aller möglichen Bahnen („Trajektorien“), auf<br />

denen sich das System durch den Zustandsraum bewegen kann. Jede Bahn � � �<br />

ist definitionsgemäß eine Funktion �: T �R 6N , die zu jedem Zeitpunkt t den<br />

Zustand des Systems (d.h. seine Position im Phasenraum) angibt, d.h. �(t) ist der<br />

Zustand des Systems zur Zeit t, falls sich das System auf der Trajektorie � durch<br />

den Phasenraum bewegt.<br />

Mögliche Ereignisse: Sei nun Z der Zustandsraum eines physikalischen Systems<br />

und � = �t�T Z die Gesamtheit aller möglichen Pfade durch den Zustandsraum.<br />

Physikalische Ereignisse können dann als Teilmengen E � � modelliert werden.<br />

Dabei repräsentiert E das Ereignis, das genau dann eintritt, wenn sich das System<br />

auf einem Pfad � � E durch den Zustandsraum bewegt. Als Beispiel betrachten<br />

wir das Ereignis ER,t = � � � � / �(t) � R �. Dieses Ereignis tritt genau dann ein,<br />

wenn sich das System zur Zeit t in dem Raumbereich R � Z befindet.<br />

y<br />

24


Wenn diese Überlegung korrekt ist, dann entspricht jedem möglichen Ereignis<br />

umkehrbar eindeutig eine Teilmenge von �. Das bedeutet automatisch, dass alle<br />

Mengenoperationen auch auf Ereignisse anwendbar sind. Die wichtigsten<br />

Beispiele sind Schnittmengen, Vereinigungen und Komplemente:<br />

(1) � � A � B � (� � A � � � B)<br />

(2) � � A � B � (� � A � � � B)<br />

(3) � � A � � � A<br />

Folgerichtig müssen auch die Mengen A � B, A � B und A als Ereignisse<br />

gedeutet werden. Die richtige Deutung ergibt sich dabei unmittelbar aus der<br />

Definition der Mengenoperationen selbst, d.h:<br />

(1) Das Ereignis A � B tritt ein, wenn das Ereignis A und das Ereignis B eintritt,<br />

(2) das Ereignis A � B tritt ein, wenn das Ereignis A oder das Ereignis B eintritt,<br />

und (3) das Ereignis A tritt ein, wenn das Ereignis A nicht eintritt. A wird auch<br />

als komplementäres Ereignis bezeichnet.<br />

Beispiel: Sei wieder ER,t = � � � � / �(t) � R � das Ereignis, das genau dann<br />

eintritt, wenn sich das System zur Zeit t im Raumbereich R befindet. Dann ist<br />

E R,<br />

t ein Ereignis, das genau dann eintritt, wenn sich das System zur Zeit t<br />

außerhalb dieses Bereichs befindet. Auf ähnliche Weise repräsentiert die<br />

E � E das Ereignis, dass sich das System zur Zeit t1 im<br />

Schnittmenge R1<br />

, t1<br />

R2<br />

, t2<br />

x<br />

�<br />

Raumbereich R1 und zum Zeitpunkt t2 im Bereich R2 befindet.<br />

z<br />

R<br />

y<br />

25


Die oben angegebenen Definitionen lassen sich leicht auf beliebige (abzählbare<br />

oder überabzählbare) Vereinigungen und Schnittmengen ausdehnen. Sei dazu<br />

� Ai � i � I � eine beliebige Familie von möglichen Ereignissen. Dann gilt:<br />

(4) � � A i<br />

(5) � � A i<br />

� � � i � I: � � Ai<br />

i�I � � � i � I: � � Ai<br />

i�I Mit anderen Worten: Das Ereignis � Ai tritt ein, wenn alle Ereignisse Ai eintreten.<br />

i�I Das Ereignis � Ai tritt ein, wenn mindestens eines der Ereignisse Ai eintritt.<br />

i�I Zwei Ereignisse A und B sind unvereinbar, wenn es keinen möglichen Pfad durch<br />

den Zustandsraum gibt, bei dem beide Ereignisse eintreten, d.h. wenn die<br />

Schnittmenge A � B = � ist. Eine Familie � Ai � i � I � von möglichen<br />

Ereignissen heißt simultan möglich, wenn die Schnittmenge � Ai nicht leer ist,<br />

d.h. wenn es einen möglichen Pfad durch den Zustandsraum gibt, bei dem alle<br />

Ereignisse Ai eintreten.<br />

Sei nun S ein beliebiges physikalisches System mit Zustandsraum Z und sei<br />

� = �t�T Z die Gesamtheit aller möglichen Pfade durch den Zustandsraum. Nach<br />

unseren bisherigen Überlegungen kann jedes mögliche Ereignis umkehrbar<br />

eindeutig als eine Teilmenge E � � dargestellt werden. In der<br />

Wahrscheinlichkeitstheorie ist es jedoch aus mathematischen Gründen nicht<br />

möglich, allen Ereignissen E � � eine numerische Wahrscheinlichkeit<br />

zuzuordnen 12 , weil es überabzählbar unendlich viele mögliche Bahnen durch den<br />

Zustandsraum gibt. Dieses Problem ist völlig irrelevant, solange wir nur kausale<br />

Zusammenhänge zwischen den möglichen Ereignissen analysieren. Es wird aber<br />

spätestens dann relevant werden, wenn wir den Ereignissen<br />

Eintrittswahrscheinlichkeiten zuordnen wollen.<br />

Sei daher � = �t�T Z die Gesamtheit aller möglichen Pfade durch den<br />

Zustandsraum und Pot(�) die Gesamtheit aller Teilmengen von �. Da wir nicht<br />

jeder Teilmenge E eine numerische Wahrscheinlichkeit zuordnen können, müssen<br />

wir uns auf eine geeignete Auswahl A � Pot(�) von möglichen Ereignissen<br />

beschränken, denen wir eine numerische Wahrscheinlichkeit zuordnen wollen oder<br />

können. Dementsprechend werden Ereignisse E � A in der<br />

12 sofern die Wahrscheinlichkeitsverteilung gewisse natürliche Stetigkeitsbedingungen<br />

erfüllen soll.<br />

i�I 26


Wahrscheinlichkeitstheorie auch als „messbare Ereignisse“ bezeichnet, weil wir<br />

ihre Eintrittswahrscheinlichkeit „messen“ oder berechnen können. Die Gesamtheit<br />

aller ausgewählten Ereignisse bildet eine Ereignisalgebra, wenn A abgeschlossen<br />

unter Komplementbildungen, sowie unter abzählbaren Schnittmengen und<br />

Vereinigungen ist. Diese Bedingungen werden im mathematischen Anhang näher<br />

erläutert. Zusätzlich wollen wir sicherstellen, dass alle Ereignisse der Form ER,t =<br />

� � � � / �(t) � R � mit t � T in unserer Auswahl enthalten sind, wenn R<br />

irgendein offener oder abgeschlossener Raumbereich im R n ist.<br />

Wir treffen also unsere Auswahl in zwei Schritten: Im ersten Schritt betrachten wir<br />

wieder den Zustandsraum Z = R n . Mit B(R n ) bezeichnen wir die kleinste<br />

Ereignisalgebra auf Z = R n , in der alle offenen und abgeschlossenen Teilmengen B<br />

� R n enthalten sind 13 . Die Existenz und Eindeutigkeit dieser Algebra wird im<br />

mathematischen Anhang bewiesen. Ereignisse B � B(R n ) werden üblicherweise<br />

auch als Borelmengen bezeichnet. In der nachfolgenden Darstellung sind drei<br />

einfache Beispiele dargestellt:<br />

x<br />

z<br />

A B<br />

Im zweiten Schritt betrachten wir den Pfadraum � = �t�T R n .<br />

Mit A = �t�T B(R n ) bezeichnen wir die kleinste Ereignisalgebra auf �, in der alle<br />

Ereignisse der Form ER,t = � � � � / �(t) � R � mit t � T und R � B(R n ) enthalten<br />

sind. Definitionsgemäß ist ER,t das Ereignis, das genau dann eintritt, wenn sich das<br />

System zur Zeit t im Raumbereich R befindet. A = �t�T B(R n ) wird auch als<br />

13<br />

Offene Mengen lassen sich als Vereinigungsmengen von offenen Intervallen der Form<br />

I = � ( x1,..., xn<br />

) / ai<br />

� xi<br />

� bi<br />

� darstellen. Abgeschlossene Mengen sind die Komplemente<br />

von offenen Mengen.<br />

C<br />

y<br />

27


„Produktalgebra“ bezeichnet. Sie ist nicht mit dem gewöhnlichen kartesischen<br />

Produkt �t�T B(R n ) zu verwechseln, das mit demselben Symbol bezeichnet wird.<br />

Wir können diese Konstruktion auf beliebige Zustandsräume übertragen. Sei dazu<br />

Z irgendein Zustandsraum und sei B eine �-Algebra auf Z. Dann ist A = �t�T B<br />

die kleinste Ereignisalgebra auf � = �t�T Z, in der alle Ereignisse ER,t mit t � T<br />

und R � B enthalten sind. Wir haben damit alle begrifflichen Komponenten, die<br />

wir zur Beschreibung von physikalischen Ereignissen benötigen werden.<br />

Zusammenfassung: Die wichtigsten Konzepte, die wir zur Beschreibung von<br />

physikalischen Prozessen benötigen, sollen hier noch einmal übersichtlich<br />

zusammengefasst werden:<br />

� Z = alle möglichen Zustände eines physikalischen Systems. Z wird auch als<br />

Zustandsraum bezeichnet.<br />

� � = �t�T Z = alle möglichen Pfade durch den Zustandsraum.<br />

� Teilmengen E � � werden als mögliche Ereignisse bezeichnet.<br />

� Wenn B eine �-Algebra auf dem Zustandsraum ist, dann ist A = �t�T B die<br />

kleinste Ereignisalgebra auf � = �t�T Z, in der alle Ereignisse ER,t mit t � T<br />

und R � B enthalten sind. A ist abgeschlossen unter Komplementbildung und<br />

abzählbaren Vereinigungen.<br />

� Beispiel: Wenn Z = R n und � = �t�T R n ist, dann ist A = �t�T B(R n ) die<br />

kleinste Ereignisalgebra auf �, in der alle Ereignisse ER,t mit t � T und R �<br />

B(R n ) enthalten sind. B(R n ) ist die Familie aller Borelmengen im R n .<br />

28


3. Der Faktor Zeit<br />

Ein wesentliches Merkmal von kausalen Abhängigkeiten ist die zeitliche Ordnung:<br />

Die Ursache ist der Wirkung zeitlich vorgeordnet und nicht umgekehrt 14 . Eine<br />

mathematische Theorie der Kausalität muss daher die zeitliche Reihenfolge<br />

zwischen den Ereignissen explizit berücksichtigen. Um die zeitliche Ordnung im<br />

mathematischen Modell zu beschreiben, benötigen wir eine zweistellige Relation<br />


Teilchen zur Zeit t´ im Raumbereich B befindet. Intuitiv ist dann At die<br />

Gesamtheit aller möglichen Ereignisse, die bis zum Zeitpunkt t (einschließlich)<br />

stattgefunden haben.<br />

Jede Ereignisalgebra wirkt daher wie ein „Filter“, der aus der Gesamtheit aller<br />

möglichen Ereignisse diejenigen Ereignisse herausfiltert, die bis zur Zeit t<br />

stattgefunden haben. Offenbar gilt dabei immer At � At´, wenn t � t´ ist. Der Filter<br />

wird also immer feinmaschiger, je weiter wir in der Zeit voranschreiten. Daher<br />

sagt man auch, dass die Ereignisalgebren At eine „Filterung“ auf � bilden. Wir<br />

können diesen Sachverhalt nutzen, um eine zeitliche Ordnung explizit zu<br />

definieren, nämlich durch die Bedingung, dass A < B genau dann gelten soll, wenn<br />

es einen Zeitpunkt t gibt, so dass A bereits Element von At ist, aber B noch nicht,<br />

d.h. wir definieren A < B durch die Bedingung<br />

� t � T : A � At � B � At<br />

Es liegt auf der Hand, dass < die gewünschten Eigenschaften besitzt, d.h.<br />

< ist irreflexiv, asymmetrisch und transitiv. Insbesondere gilt natürlich EB,t < EB,t´ ,<br />

wenn t < t´ ist.<br />

Wir können die vorhergehende Konstruktion unschwer auf beliebige<br />

Zustandsräume verallgemeinern. Sei dazu Z irgendein Zustandsraum und B eine<br />

�-Algebra auf Z. Dann ist A = �t�T B wieder die zugehörige Ereignisalgebra und<br />

At = �t´�t B die kleinste Teilalgebra, in der alle Ereignisse EB,t´ mit t´� t und B �<br />

B enthalten sind. Entsprechend gilt dann A < B, wenn es einen Zeitpunkt t gibt, so<br />

dass A � At aber B � At gilt.<br />

Die Existenz einer zeitlichen Ordnung ist in der klassischen Physik mehr oder<br />

weniger trivial, weil wir eine linear geordnete Menge T von Zeitpunkten<br />

vorgegeben haben, so dass alle Ereignisse auf derselben Zeitskala vergleichbar<br />

sind. Nichttrivial ist dagegen die Konstruktion einer zeitlichen Ordnung in der<br />

allgemeinen Relativitätstheorie, weil dort T durch eine allenfalls partiell geordnete<br />

Menge von Raum-Zeit-Punkten ersetzt werden muss, wie wir später sehen werden.<br />

Für die meisten physikalischen (und außer-physikalischen) Anwendungen ist<br />

jedoch die oben beschriebene Konstruktion völlig angemessen und<br />

unproblematisch.<br />

30


Zusammenfassung: Die wichtigsten Konzepte und Definitionen aus diesem<br />

Abschnitt sollen hier noch einmal übersichtlich aufgelistet werden:<br />

� T ist eine linear geordnete Menge von Zeitpunkten.<br />

� � = �t�T Z = alle möglichen Pfade durch den Zustandsraum.<br />

� B ist eine �-Algebra auf Z.<br />

� At ist die kleinste Ereignisalgebra auf � = �t�T Z, in der alle Ereignisse EB,t´<br />

mit t´� t und B � B enthalten sind, d.h:<br />

� At repräsentiert alle Ereignisse, die bis zur Zeit t einschließlich stattgefunden<br />

haben. Dabei gilt At � At´, wenn t � t´ ist.<br />

� Definitionsgemäß gilt A < B, wenn es einen Zeitpunkt t gibt, so dass A � At<br />

aber B � At gilt.<br />

Das geordnete Tripel (�, A,


4. Ursache und Wirkung<br />

Im Folgenden sei S ein physikalisches System mit dem Zustandsraum Z und � =<br />

�t�T Z die Gesamtheit aller Trajektorien �: T � Z durch den Zustandsraum.<br />

Grundlegend für den klassischen Kausalitätsbegriff ist die Vorstellung, dass nicht<br />

alle Zustandsübergänge physikalisch möglich sind. Damit ist gemeint, dass es<br />

physikalische Gesetzmäßigkeiten gibt, die die zulässigen Zustandsübergänge<br />

einschränken.<br />

Beispiel 1: Als Beispiel betrachten wir ein Teilchen mit der Masse m, das sich in<br />

einem Potentialfeld V(x,y,z) bewegt. Darunter verstehen wir ein skalares Feld, das<br />

überall im Raum eine wohldefinierte Feldstärke besitzt. „Skalar“ bedeutet dabei,<br />

dass sich die Feldstärke durch Angabe einer einzigen reellen Zahl bestimmen lässt.<br />

Wir deuten also die Größe V(x,y,z) als die Feldstärke am Ort mit den Koordinaten<br />

x, y, z. Aus dieser Größe lässt sich ableiten, welche Kraft auf unser Teilchen<br />

wirken würde, wenn es sich an dem angegebenen Ort befindet. Dazu bilden wir<br />

den negativen Gradienten � � V . 15 Nach dem zweiten Newtonschen Gesetz sind<br />

dann nur solche Teilchenbahnen physikalisch möglich, die die Bedingung<br />

m�r� � � ��V<br />

erfüllen. Dabei ist r( t)<br />

� � x(<br />

t),<br />

y(<br />

t),<br />

z(<br />

t)<br />

� die Position des Teilchens zur Zeit t und<br />

�r �(<br />

t) � � �x<br />

�(<br />

t),<br />

�y<br />

�(<br />

t),<br />

�z<br />

�(<br />

t)<br />

�die<br />

zugehörige Beschleunigung.<br />

Beispiel 2: Sei nun allgemein Z = R 6N der Phasenraum für ein N-Teilchensystem<br />

6N<br />

und � � �t�T<br />

R die Gesamtheit aller Trajektorien durch den Phasenraum. Aus<br />

physikalischer Sicht sind nur solche Trajektorien möglich, die die Hamiltonschen<br />

Bewegungsgleichungen erfüllen. Solche Trajektorien müssen insbesondere stetig<br />

und in allen 6N Komponenten nach t differenzierbar sein.<br />

Beispiel 3: Sei Z = L 2 (R 3N ) der Zustandsraum (Hilbertraum) für ein N-Teilchen-<br />

2 3N<br />

Quantensystem und � � �t�T<br />

L ( R ) die Gesamtheit aller Trajektorien durch den<br />

Zustandsraum. Physikalisch realisierbar sind nur solche Trajektorien, die die sog.<br />

Schrödinger-Gleichung erfüllen. Auch diese Trajektorien müssen entsprechende<br />

Stetigkeits- und Differenzierbarkeitsbedingungen erfüllen.<br />

Sei nun S ein beliebiges physikalisches System mit Zustandsraum Z. Dann<br />

bezeichnen wir mit �* � �t�T Z die Gesamtheit aller möglichen Pfade durch den<br />

15 Definitionsgemäß handelt es sich dabei um eine vektorielle Größe mit den<br />

Komponenten � �V<br />

/ �x,<br />

� �V<br />

/ �y,<br />

� �V<br />

/ �z<br />

.<br />

32


Zustandsraum, die mit den Gesetzen der Physik vereinbar sind. Das<br />

vorhergehende Beispiel zeigt, dass im Normalfall �* eine echte Teilmenge von �<br />

= �t�T Z sein muss, weil nicht alle Zustandsübergänge physikalisch realisierbar<br />

sind.<br />

Wenn E ein beliebiges Ereignis aus � ist, dann bezeichnen wir mit E* = E � �*<br />

die Schnittmenge von E mit �*. E* ist also die Gesamtheit aller physikalisch<br />

möglichen Pfade durch den Zustandsraum, auf denen das Ereignis E eintritt. E*<br />

wird im Folgenden auch als die Spur von E in �* bezeichnet. Wenn nun A �<br />

Pot(�) eine beliebige Ereignisalgebra auf � ist, dann bezeichnen wir mit A* die<br />

Gesamtheit aller Ereignisse E* mit E � A. Man kann leicht zeigen, dass A* eine<br />

Ereignisalgebra auf �* ist; sie wird auch als Spuralgebra bezeichnet. A*<br />

repräsentiert also die Gesamtheit aller physikalisch möglichen Ereignisse. Wir<br />

sagen, dass eine Aussage der Form A � B überall in �* gültig ist, wenn wenn die<br />

Bedingung � � A � � � B für alle physikalisch möglichen Pfade � � �* durch<br />

den Zustandsraum erfüllt ist. Offenbar gilt A � B überall in �* genau dann, wenn<br />

für die Spurereignisse A* � B* gilt. Ebenso sagen wir, dass die Aussage A = B<br />

überall in �* gilt, wenn � � A � � � B für alle � � �* gilt, d.h. wenn A* = B*<br />

ist. Mit diesen Vorüberlegungen können wir nun den Kausalitätsbegriff in<br />

allgemeiner Form definieren.<br />

Von einem strikten kausalen Zusammenhang zwischen zwei Ereignissen A und B<br />

können wir ausgehen, wenn unter jeden möglichen Bedingung, unter der das<br />

Ereignis A eintritt, auch der Effekt B eintritt, d.h. wenn die Aussage � � A �<br />

� � B für alle physikalisch möglichen Pfade durch den Zustandsraum gilt. Dabei<br />

wird natürlich vorausgesetzt, dass das Ereignis A dem Effekt B zeitlich<br />

vorgeordnet ist, d.h. dass A < B gilt. Wir schreiben im folgenden A


� Es muss ein gesetzmäßiger Zusammenhang zwischen den Ereignissen<br />

bestehen: wenn das Ereignis A eintritt, muss auch der Effekt B eintreten.<br />

Definitionsgemäß gilt also A


Beispiel 1: Sei S ein freies Teilchen, das sich in einem Potentialfeld V � 0 bewegt.<br />

Ferner sei A das Ereignis, dass das Teilchen sich zur Zeit t = 0 mit der<br />

Geschwindigkeit v durch den Ursprung des Koordinatensystems bewegt und sei B<br />

das Ereignis, dass sich das Teilchen zur Zeit t > 0 mit derselben Geschwindigkeit<br />

2 2 2 2 2<br />

durch die Oberfläche der Sphäre R = � � x, y,<br />

z � / x � y � z � v t � bewegt.<br />

Dann ist A


In einem UND-Gatter fließt Strom durch das Gatter (Y = 1) dann und nur dann,<br />

wenn beide Eingänge Strom führen, d.h. wenn X1 =1 und X2 = 1 gilt. Im ODER-<br />

Gatter gilt Y = 1, wenn mindestens einer der beiden Eingänge Strom führt, d.h.<br />

wenn X1 = 1 oder X2 = 1 gilt. Technisch lässt sich ein UND-Gatter realisieren<br />

durch eine Reihenschaltung, bei der nur Strom fließt, wenn beide Schalter<br />

geschlossen sind. ODER-Gatter sind realisierbar durch Parallelschaltungen, bei<br />

der Strom fließt, sobald einer der beiden Schalter geschlossen wird.<br />

Die möglichen Zustände der Eingangsleitungen sind gegeben durch den<br />

Möglichkeitsraum �ein = � 0,1 � � � 0,1 �, d.h. �ein ist die Menge aller geordneten<br />

Paare (i,j) mit i, j � � 0,1 �. Dabei gibt die Variable i den Zustand des ersten<br />

Eingangs und j den Zustand des zweiten Eingangs wieder. Die möglichen<br />

Zustände am Ausgang sind gegeben durch den Möglichkeitsraum �aus = � 0,1 �.<br />

Wir definieren eine zeitliche Ordnung mit zwei Zeitpunkten t = ein und t´= aus,<br />

wobei t < t´ gelten soll. Diese Festsetzung erscheint sinnvoll, weil der Strom von<br />

den Eingangsleitungen zur Ausgangsleitung fließt, und dafür eine endliche Zeit<br />

benötigt. Die Gesamtheit aller möglichen Kombinationen von Eingangs- und<br />

Ausgangszuständen im Logikschaltkreis ist gegeben durch<br />

� = �ein � �aus = � (i,j,k) / i,j,k = 0 oder 1�<br />

Dabei beziehen sich die Variablen i und j auf die Zustände des ersten und zweiten<br />

Eingangs und die Variable k auf den Zustand am Ausgang.<br />

In einem UND-Gatter kann konstruktionsgemäß nur Strom durch den Ausgang<br />

fließen, wenn beide Eingänge Strom führen, d.h. k = 1 genau dann, wenn i = j = 1<br />

ist. Die Menge aller möglichen Zustände in einem UND-Gatters ist also<br />

Wir betrachten nun die Ereignisse<br />

�* = � (1,1,1), (1,0,0), (0,1,0), (0,0,0) �<br />

A1 = � (i,j,k) � � / i = 1, j = 1 � = beide Eingänge führen Strom.<br />

A2 = � (i,j,k) � � / i = 1, j = 0 � = nur der erste Eingang führt Strom.<br />

A3 = � (i,j,k) � � / i = 0, j = 1 � = nur der zweite Eingang führt Strom.<br />

A4 = � (i,j,k) � � / i = 0, j = 0 � = keiner der beiden Eingänge führt Strom.<br />

Ferner betrachten wir die Ereignisse<br />

B = � (i,j,k) � � / k = 1 � = Birne brennt, und<br />

B = � (i,j,k) � � / k = 0 � = Birne brennt nicht.<br />

36


Die Ereignisse Ai entsprechen also den möglichen Zuständen der<br />

Eingangsleitungen (insgesamt 4 Möglichkeiten). Die Ereignisse B und B<br />

beschreiben die möglichen Zustände der Ausgangsleitung (Strom / kein Strom).<br />

Nach unseren Definitionen gilt Ai < B bzw. Ai < B für alle i = 1,…,4, wenn wir<br />

Ereignisräume Aein und Aaus so definieren, dass At = Pot(�t) gilt. In diesem Fall<br />

sind nämlich die Ai messbar in t = ein ist, aber B und B erst in t´ = aus (Warum?).<br />

Darüberhinaus gilt A1 � B und Ai � B , für i = 2,3,4 überall in �*. Damit sind die<br />

beiden Bedingungen erfüllt, die im Kausalitätsbegriff enthalten sind, weil (1) die<br />

richtige zeitliche Ordnung zwischen den Ereignissen und (2) ein gesetzmäßiger<br />

Zusammenhang zwischen den Ereignissen besteht. Somit gilt<br />

A1


5. Kausalität und bedingte Wahrscheinlichkeit<br />

Bis hier haben wir nur kausale Zusammenhänge zwischen möglichen Ereignissen<br />

untersucht ohne deren Eintrittswahrscheinlichkeit zu berücksichtigen. Man kann<br />

aber leicht zeigen, dass zwischen Kausalität und Wahrscheinlichkeit ein einfacher<br />

Zusammenhang besteht.<br />

Ein Wahrscheinlichkeitsmaß ist definitionsgemäß eine Funktion p: A � R, die<br />

jedem möglichen Ereignis E aus einer Ereignisalgebra A � Pot(�) eine<br />

numerische Wahrscheinlichkeit p(E) zuordnet. Dabei müssen grundsätzlich drei<br />

Bedingungen erfüllt sein, die gewöhnlich als Kolmogoroff-Axiome bezeichnet<br />

werden:<br />

(K1) Für alle Ereignisse E aus A gilt: 0 � p(E) � 1<br />

(K2) Normierung: p(�) = 1<br />

(K3) �-Additivität: Wenn A1, A2, ..., An, … paarweise disjunkte Ereignisse sind,<br />

dann ist die Wahrscheinlichkeit<br />

�<br />

�<br />

p( � A ) � � p( A )<br />

n<br />

n�1<br />

n�1<br />

Im Falle der klassischen Kausalität wird der Möglichkeitsraum � im Allgemeinen<br />

durch physikalische Gesetzmäßigkeiten eingeschränkt. Der eingeschränkte<br />

Möglichkeitsraum wird mit �* bezeichnet. Wenn A � Pot(�) eine �-Algebra auf<br />

dem uneingeschränkten Möglichkeitsraum ist, dann konstruieren wir wie in<br />

Kapitel 3 eine korrespondierende Ereignisalgebra auf �* durch die Gleichung<br />

A* = � A* = A � �* / A � A �<br />

Man kann leicht zeigen, dass A* tatsächlich eine �-Algebra auf �* ist, also<br />

abgeschlossen unter Komplementbildungen, sowie unter abzählbaren<br />

Durchschnitten und Vereinigungen. A* wird als Spuralgebra von A in �*<br />

bezeichnet. Sei nun p*: A* � R ein beliebiges Wahrscheinlichkeitsmaß auf A*.<br />

Dann gibt es genau ein Wahrscheinlichkeitsmaß p: A � R, so dass<br />

(*) p(E) = p*(E*)<br />

für alle Ereignisse E � A* gilt. p wird dann als die eindeutig bestimmte<br />

Fortsetzung von p* auf A bezeichnet. Umgekehrt wird p* als Spurmaß von p auf<br />

A* bezeichnet.<br />

n<br />

38


Zur Existenz von p: Man kann leicht sehen, dass p tatsächlich ein Wahrscheinlichkeitsmaß<br />

ist, also die Kolmogoroff-Axiome erfüllt. Denn definitionsgemäß gilt (1) 0 � p(E) =<br />

p*(E*) � 1 für alle Ereignisse E. Ebenso ist (2) p(�) = p*(�*) = 1, da p* nach<br />

Voraussetzung die Kolmogoroff-Axiome erfüllt. (3) Für paarweise disjunkte Ereignisse<br />

A1, A2,..., An,... gilt<br />

p( � An ) � p *( � An )* = p *( � An *) � � p *( An*) � � p( An<br />

)<br />

n<br />

n<br />

n n<br />

n<br />

da auch die Spurmengen An* paarweise disjunkt sind. Zur Eindeutigkeit von p: Wenn es<br />

zwei verschiedene Wahrscheinlichkeitsmaße p, p´ : A � R gäbe, die die Bedingung (*)<br />

erfüllen, dann müsste ein Ereignis E � A existieren, so dass p(E) � p´(E) und zugleich<br />

p(E) = p*(E*) = p´(E) gilt – ein Widerspruch.<br />

Ein Wahrscheinlichkeitsmaß p: A � R heißt im folgenden zulässig in Bezug auf<br />

�*, wenn es ein Wahrscheinlichkeitsmaß p*: A* � R gibt, so dass p die<br />

Fortsetzung von p* auf A und umgekehrt: p* das Spurmaß von p auf A* ist.<br />

„Zulässigkeit“ bedeutet also intuitiv, dass nur physikalisch mögliche Ereignisse<br />

eine Wahrscheinlichkeit > 0 besitzen können. Im Umkehrschluss gilt p(E) = 0 für<br />

alle Ereignisse, die im Widerspruch zu den Naturgesetzen stehen 17 . Die<br />

wichtigsten Eigenschaften von zulässigen Wahrscheinlichkeitsmaßen sind in den<br />

folgenden Aussagen festgehalten:<br />

Lemma 1: Für alle Ereignisse E gilt p(E) = p*(E*).<br />

Lemma 2: Für alle Ereignisse A1, A2 mit A1* = A2* gilt p(A1) = p(A2).<br />

*<br />

Lemma 3: Wenn die Ereignisse An paarweise disjunkt sind, dann gilt<br />

� �<br />

p( � An ) = � p( An<br />

) ,<br />

n�1<br />

n= 1<br />

selbst wenn die Ereignisse An selbst nicht disjunkt sind.<br />

Bei der Analyse von kausalen Zusammenhängen interessieren uns allerdings<br />

weniger die absoluten Wahrscheinlichkeiten von möglichen Ereignissen bzw.<br />

Effekten, sondern die bedingte Wahrscheinlichkeit, dass ein bestimmter Effekt E<br />

eintritt, wenn die Bedingungen A, B oder C erfüllt sind. Die bedingte<br />

Wahrscheinlichkeit von E unter der Voraussetzung A wird wie üblich mit p(E/A)<br />

bezeichnet und durch die Gleichung<br />

17 Definitionsgemäß steht ein Ereignis E in Widerspruch zu den Naturgesetzen, wenn die<br />

Schnittmenge E* = E � �* = � ist.<br />

39


p( A � E)<br />

p( E / A)<br />

�<br />

p( A)<br />

definiert. Dabei muss natürlich p(A) > 0 sein, weil die Division durch Null<br />

verboten ist. Der Sinn dieser Definition wird unmittelbar aus dem nachfolgenden<br />

Diagramm deutlich.<br />

Das Diagramm sei so angelegt, dass die Fläche der Teilmengen A und E proportional zur<br />

Eintrittswahrscheinlichkeit der entsprechenden Ereignisse ist (die Gesamtfläche �<br />

entspricht 100 %). Jeder Punkt innerhalb des Diagramms repräsentiert dabei einen<br />

möglichen Pfad durch den Zustandsraum des Systems. Unter der Voraussetzung A<br />

können nur noch Pfade innerhalb von A realisiert werden. Demzufolge entspricht die<br />

bedingte Wahrscheinlichkeit p(E/A) dem Anteil der Schnittmenge E � A an der<br />

Gesamtfläche von A.<br />

Sei nun A eine Ereignisalgebra auf � und A* die Spuralgebra von A in einer<br />

Teilmenge �*. Wenn dann p*: A* � R ein Wahrscheinlichkeitsmaß auf A* und<br />

p : A � R die Fortsetzung von p* auf A ist, dann gilt für die bedingten<br />

Wahrscheinlichkeiten das nachfolgende<br />

Lemma 4: Für alle Ereignisse A, B mit p(A) = p*(A*) > 0 gilt p(B/A) = p*(B*/A*).<br />

Wir können nach diesen Vorüberlegungen einen einfachen Satz formulieren, der<br />

zeigt, wie kausale Abhängigkeiten mit bedingten Wahrscheinlichkeiten<br />

zusammenhängen:<br />

Satz 2: Sei Z der Zustandsraum eines physikalischen Systems und sei �* �<br />

�t�T Z die Gesamtheit aller physikalisch möglichen Pfade durch den<br />

Zustandsraum. Ferner seien A, B beliebige kontingente 18 Ereignisse aus A mit<br />

18 d.h. A, B erfüllen die Varianzbedingungen aus Definition 1.<br />

A<br />

E<br />

�<br />

40


A < B. Dann gilt A 0 die Gleichung p(B/A) = 1 erfüllt<br />

ist.<br />

Beweis: (�) Sei p ein zulässiges Wahrscheinlichkeitsmaß auf A und sei A Ursache von B<br />

in dem oben definierten Sinn. Dann ist offenbar p*(B*/A*) = 1, denn nach Voraussetzung<br />

gilt A � B überall in �*, also A* � B*. Aus der Zulässigkeit folgt mit Lemma 4, dass<br />

auch p(B/A) = p*(B*/A*) = 1 ist, sofern p(A) > 0 ist.<br />

(�) Umgekehrt lässt sich zeigen, dass A � B überall in �* gelten muss, wenn die<br />

Bedingung p(B/A) = 1 für alle zulässigen Verteilungen p: A � R mit p(A) > 0 erfüllt ist.<br />

Denn andernfalls gäbe es mindestens ein Ereignis � � �* mit � � A* � B*. Wir könnten<br />

dann eine zulässige Verteilung p mit p*(A* � B*) = 1 konstruieren. In diesem Fall wäre<br />

aber p*(B*) = p(B) = 0 und p*(B*/A*) = p(B/A) = 0 – im Widerspruch zur<br />

Voraussetzung. �<br />

Beispiel: Zur Illustration von Satz 2 wollen wir annehmen, dass in dem oben<br />

betrachteten UND-Gatter die Belegung der Eingangsleitungen zu Testzwecken<br />

abwechselnd auf 0 und auf 1 gesetzt wird. Dies könnte zum Beispiel durch einen<br />

Zufallsmechanismus gesteuert werden, bei dem alle möglichen Kombinationen<br />

von Eingangswerten mit positiven Wahrscheinlichkeiten auftreten. Wir erhalten<br />

dann zum Beispiel beim UND-Gatter für die bedingten Wahrscheinlichkeiten die<br />

Werte<br />

p(B /A1) = 1,<br />

p( B /A1) = 0,<br />

p(B /Ai) = 0, für i = 2,3,4<br />

p( B /Ai) = 1, für i = 2,3,4<br />

Dabei ist zu beachten, dass diese Gleichungen gemäß Satz 2 für jede beliebige<br />

zulässige Wahrscheinlichkeitsverteilung gelten, sofern nur p(Ai) > 0 ist (für alle i =<br />

1,…,4).<br />

Satz 2 ist ein Beispiel für eine bestimmte Sorte von Aussagen, die wir im<br />

folgenden als Übersetzungsregeln bezeichnen werden. Mithilfe solcher<br />

Übersetzungsregeln lassen sich Aussagen über kausale Abhängigkeiten (in<br />

unserem Beispiel: A


Antezedensbedingung A erfüllt ist. Das entspricht natürlich dem klassischen<br />

Kausalitätsbegriff, wonach ein strikter nomologischer Zusammenhang zwischen Ursache<br />

und Wirkung bestehen muss. Demgegenüber hat P. Suppes 1970 eine probabilistische<br />

Theorie der Kausalität vorgeschlagen, die nur von einem statistischen Zusammenhang<br />

zwischen Ursache und Wirkung ausgeht. Danach ist A eine „Prima-facie-Ursache“ für<br />

einen zeitlich nachfolgenden Effekt B, wenn A die Wahrscheinlichkeit erhöht, dass der<br />

Effekt eintritt, d.h. wenn p(B/A) > p(B) ist 19 . Man kann leicht erkennen, dass jede strikte<br />

Ursache zugleich eine Prima-facie-Ursache im Sinne des Suppes-Kriterium ist, d.h. aus A<br />

p(B) für alle zulässigen Wahrscheinlichkeitsmaße mit 0 <<br />

p(A) < 1. Tatsächlich kann man zeigen, dass auch die Umkehrung dieser Aussage gilt,<br />

d.h. es gilt der folgende<br />

Satz 2a: Seien A, B beliebige kontingente 20 Ereignisse aus A mit A < B. Dann gilt<br />

A p(B) für alle zulässigen Wahrscheinlichkeitsmaße p<br />

mit 0 < p(A), p(B) < 1 gilt.<br />

Dieser Satz kann im Wesentlichen durch dieselben Überlegungen begründet werden, wie<br />

der oben angegebene Satz 2. Das Ergebnis zeigt, dass der wesentliche Unterschied<br />

zwischen dem klassischen Kausalitätsbegriff und den meisten probabilistischen Begriffen<br />

darin besteht, dass der klassische Kausalitätsbegriff robust, d.h. unabhängig von der Wahl<br />

eines bestimmten Wahrscheinlichkeitsmaßes ist.<br />

19 Diese Bedingung ist notwendig, aber nicht hinreichend für einen kausalen<br />

Zusammenhang, weil sie nicht erlaubt, zwischen echten Ursachen und bloßen<br />

Symptomen zu unterscheiden. Das wird deutlich, wenn man zum Beispiel die Ereignisse<br />

A = das Barometer fällt und B = es tritt ein Sturm ein vergleicht. In diesem Fall gilt zwar<br />

p(B/A) > p(B), sofern das Barometer ordnungsgemäß funktioniert, aber A ist nicht<br />

ursächlich für B. Ursächlich ist vielmehr ein drittes Ereignis, nämlich C = der Luftdruck<br />

fällt, das sowohl A als auch B verursacht.<br />

20 d.h. A, B erfüllen die Varianzbedingungen aus Definition 1<br />

42


6. Zufallsvariablen<br />

Die bisherigen Überlegungen beziehen sich auf kausale Beziehungen zwischen<br />

Ereignissen. Das entspricht der alltagssprachlichen Verwendung der Begriffe<br />

„Ursache“ und „Wirkung“. In wissenschaftlichen Kontexten betrachtet man häufig<br />

auch kausale Zusammenhänge zwischen physikalischen Größen. Messbare Größen<br />

werden in der Physik als Observablen bezeichnet. Wichtige Beispiele sind der Ort<br />

und der Impuls eines Teilchens, seine Geschwindigkeit, seine kinetische Energie<br />

usw. Wir verwenden im Folgenden große lateinische Buchstaben X, Y, Z (mit und<br />

ohne Indizes) vom Ende des Alphabets zur Bezeichnung von Observablen,<br />

während die Anfangsbuchstaben A, B, C usw. zur Bezeichnung von möglichen<br />

Ereignissen vorbehalten sind.<br />

Aus Sicht der Wahrscheinlichkeitstheorie kann man Observablen als<br />

„Zufallsvariablen“ interpretieren. Darunter verstehen wir eine Größe, die mit einer<br />

bestimmten Wahrscheinlichkeit unterschiedliche Werte annehmen kann. Wenn<br />

beispielsweise � die Menge aller möglichen Pfade eines physikalischen Systems<br />

durch seinen Zustandsraum darstellt, dann hängen die Werte einer Observablen X<br />

von dem Pfad � � � ab, auf dem sich das System tatsächlich bewegt. Mit X(�) =<br />

x bezeichnen wir daher den Wert, den die Variable unter der Bedingung �<br />

annimmt. Es ist üblich, Zufallsvariablen mit großen Buchstaben zu bezeichnen, die<br />

möglichen Werte der Variablen dagegen mit kleinen Buchstaben.<br />

Wir können uns nun vorstellen, dass durch irgendeinen Zufallsmechanismus<br />

willkürlich ein Pfad aus � ausgewählt wird. Dann hängt die Wahrscheinlichkeit<br />

für den Messwert x davon ab, mit welcher Wahrscheinlichkeit sich das System auf<br />

einem Pfad � durch den Zustandsraum bewegt, der die Bedingung X(�) = x<br />

erfüllt. Dementsprechend definieren wir jede Observable X als eine Abbildung<br />

X: � � �X. Dabei ist �X die Menge aller möglichen Werte, die die Variable X<br />

annehmen kann. In der Praxis ist meistens �X = R oder �X = R n .<br />

Beispiel: Sei Z der Zustandsraum eines physikalischen Systems und sei<br />

� � �t�T<br />

Z die Gesamtheit aller Trajektorien durch den Zustandsraum. Wir<br />

definieren (für jeden Zeitpunkt t) eine Observable Zt : � � Z durch die Vorschrift,<br />

dass<br />

( � ) � �(<br />

t)<br />

Z t<br />

für alle Zeitpunkte t und alle Trajektorien �� � gelten soll. Zt (�)<br />

repräsentiert<br />

also den Zustand des Systems zur Zeit t, falls sich das System auf der Trajektorie<br />

43


� durch den Zustandsraum bewegt. Hier ist also der Wertebereich � Z für alle<br />

t � T . �<br />

Messbarkeit: Für die Wahrscheinlichkeitstheorie ist der Begriff der Messbarkeit<br />

von zentraler Bedeutung. Sei dazu �X die Menge aller möglichen Werte, die die<br />

Observable X annehmen kann und sei AX eine �-Algebra auf �X. Ferner sei A wie<br />

üblich eine �-Algebra auf � = �t�T Z. Wir bezeichnen jede Teilmenge B � �X<br />

mit B � AX als eine bezüglich der Algebra AX messbare Menge von möglichen<br />

Werten. Eine Abbildung X: � � �X heißt A–AX–messbar, wenn für jede<br />

messbare Menge B � AX das „Urbild“<br />

X �1 (B) = � � � � / X(�) � B �<br />

�Z t<br />

in A enthalten ist, d.h. wenn X �1 (B) � A für alle B � AX gilt. Wir verwenden im<br />

folgenden die Abkürzung<br />

� X � B � für das Ereignis X -1 (B) = � � � � / X(�) � B �<br />

Dies ist das Ereignis, das eintritt, wenn die Variable X einen Wert x � B annimmt.<br />

Analog definieren wir die Abkürzung<br />

� X = x � für das Ereignis � � � � / X(�) = x �<br />

Dies ist das Ereignis, das eintritt, wenn die Variable X den Wert x annimmt. 21 Die<br />

praktische Bedeutung der Messbarkeit für die Wahrscheinlichkeitstheorie besteht<br />

darin, dass das Ereignis � X � B � automatisch messbar ist, wenn B � AX gilt, d.h.<br />

man kann dem Ereignis eine Wahrscheinlichkeit p� X � B � zuordnen, weil<br />

� X � B � im Definitionsbereich von p liegt. Umgekehrt kann man zu jedem<br />

Wahrscheinlichkeitsmaß p auf A ein sogenanntes „Bildmaß“ pX : AX � R<br />

definieren, so dass pX(B) = p� X � B � für alle B � AX gilt. Abweichend vom<br />

üblichen Sprachgebrauch in der Maß- und Wahrscheinlichkeitstheorie werden wir<br />

hier und im folgenden immer von der Annahme ausgehen, dass die Einermengen<br />

� x � für alle Werte x � �X messbar in AX sind. Das hat zur Folge, dass dann auch<br />

die Ereignisse � X = x � messbar in A sind, so dass man sinnvoll nach der<br />

Wahrscheinlichkeit p� X = x � fragen kann.<br />

Zt � � = � � � � / Zt ( �) � z � das<br />

Ereignis, das eintritt, wenn sich das System zur Zeit t im Zustand z befindet. Ebenso ist<br />

� Zt � B � ein Ereignis, das eintritt, wenn sich das System zur Zeit t in einem Zustand<br />

21 In dem zuvor betrachteten Beispiel ist � z<br />

z � B befindet, d.h. � Zt � B � = B t<br />

E , .<br />

44


Beispiel: Sei wieder Z der Zustandsraum eines physikalischen Systems und sei<br />

B(Z) die Gesamtheit aller Borelmengen von Z. 22 Ferner sei � � �t�T<br />

Z die<br />

Gesamtheit aller Trajektorien im Zustandsraum und Zt ( �) � �(<br />

t)<br />

für alle � ��<br />

und alle t � T . Mit A = � B(Z)<br />

bezeichnen wir die kleinste Ereignisalgebra auf<br />

t�T<br />

�, in der alle Zustände messbar sind, d.h. es gilt<br />

�1<br />

Zt ( B<br />

) � A<br />

für alle Borelmengen B �B(Z)<br />

und alle Zeitpunkte t. Definitionsgemäß ist dann<br />

jede Variable Zt eine A-B(Z)-messbare Abbildung Z t : � � Z . Sei nun<br />

insbesondere Z = R 2n der klassische Phasenraum für ein System mit n<br />

Freiheitsgraden und R � R<br />

n 2<br />

f : eine beliebige Borel-messbare Funktion auf dem<br />

Phasenraum. Dann ist X t � f � Zt<br />

eine (A-B(R))-messbare Variable auf �.<br />

Wir schreiben vielfach X t � f ( Zt<br />

) anstelle von X t � f � Zt<br />

.<br />

Beispiel: Sei Z = R 6 der Phasenraum für ein einzelnes Teilchen der Masse m. Bei<br />

Verwendung von kartesischen Koordinaten hat dann jeder Zustand z � Z die<br />

Form z = ( x, y,<br />

z,<br />

px<br />

, py<br />

, pz<br />

) mit x , y,<br />

z,<br />

px<br />

, py<br />

, pz<br />

� R . 23 Wir definieren Borel-<br />

messbare Funktionen<br />

f x y z �<br />

6<br />

k<br />

f , g,<br />

h : R � R durch die Vorschriften<br />

( x,<br />

y,<br />

z,<br />

p , p , p ) ( x,<br />

y,<br />

z)<br />

g( x,<br />

y,<br />

z,<br />

px<br />

, py<br />

, pz<br />

) � ( px<br />

, py<br />

, pz<br />

)<br />

h( x,<br />

y,<br />

z,<br />

px<br />

, py<br />

, pz<br />

) � ( px<br />

� py<br />

� pz<br />

) / 2m<br />

2<br />

2<br />

Dann repräsentieren die Variablen f � Zt<br />

, g � Zt<br />

, h � Zt<br />

den Ort, den Impuls und die<br />

kinetische Energie des Teilchens auf den jeweiligen Trajektorien, d.h. es gilt<br />

( � Z )( �) � r ( t)<br />

f t �<br />

( � Z )( �) � p ( t)<br />

g t �<br />

( � Z )( �)<br />

� E , ( t)<br />

f t kin �<br />

22 Wir setzen voraus, dass Z die Struktur eines topologischen Raums besitzt. Dann ist<br />

B(Z) die kleinste �-Algebra auf dem Zustandsraum, in der alle offenen und<br />

abgeschlossenen Teilmengen von Z enthalten sind.<br />

23 x, y, z sind die (kartesischen) Ortskoordinaten des Teilchens, p x,<br />

py<br />

, pz<br />

sind die<br />

zugehörigen Impulskoordinaten, d.h. � mx�<br />

, p � my�<br />

, p � mz�<br />

.<br />

2<br />

px y z<br />

45


In den ersten beiden Fällen ist k = 3, d.h. Ort und Impuls sind vektorielle Größen.<br />

Im Fall der kinetischen Energie ist k = 1, d.h. es handelt sich um eine skalare<br />

Größe. �<br />

Zeitliche Ordnung: Um kausale Abhängigkeiten zwischen verschiedenen<br />

Observablen beschreiben zu können, müssen wir zunächst eine zeitliche Ordnung<br />

zwischen den Variablen festlegen: Wir nennen eine Observable X messbar zum<br />

Zeitpunkt t, wenn X eine At–AX–messbare Größe ist, d.h. wenn � X � E � � At für<br />

alle E � AX gilt. Dabei repräsentiert At wieder die Gesamtheit aller möglichen<br />

Ereignisse bis zur Zeit t, d.h. At ist die kleinste �-Algebra auf �, in der alle<br />

Z mit t � t´<br />

messbar sind. Offenbar gilt: Wenn X messbar zur Zeit t ist,<br />

Zustände t´<br />

dann ist X auch messbar zu jedem nachfolgenden Zeitpunkt t´ � t, d.h. es gilt<br />

At � At´<br />

für alle t � t´<br />

. Wir schreiben X < Y, wenn es einen Zeitpunkt t gibt, so<br />

dass X messbar in t ist, aber Y nicht. Offenbar ist dann < eine irreflexive,<br />

asymmetrische und transitive (Ordnungs-) Relation zwischen den Observablen.<br />

Beispiel: Sei � � � Z die Gesamtheit aller Trajektorien durch den Zustandsraum eines<br />

physikalischen Systems und sei ( �) � �(<br />

t)<br />

für alle Zeitpunkte t �T und alle<br />

Trajektorien ��<br />

t�T<br />

�<br />

Zt . Dann gilt trivialerweise t Zt´<br />

Z � für alle Zeitpunkte t � t´<br />

.<br />

Kausalität: Nach diesen Vorüberlegungen können wir uns nun dem<br />

Kausalitätsbegriff zuwenden. Sei dazu wieder �* die Gesamtheit aller<br />

physikalisch möglichen Pfade durch den Zustandsraum. Wir können von einem<br />

kausalen Zusammenhang zwischen zwei Observablen X und Y sprechen, wenn in<br />

Hinblick auf die zeitliche Ordnung X < Y gilt, und wenn eine strikte funktionale<br />

Abhängigkeit der Y-Werte von den X-Werten vorliegt, d.h. wenn eine Funktion<br />

f: �X � �Y existiert, so dass Y � f � X überall in �* gilt. Das bedeutet<br />

definitionsgemäß, dass Y(�) = f(X(�)) für alle Trajektorien � � �* gilt.<br />

Gelegentlich verwenden wir auch die nicht ganz korrekte, aber intuitive<br />

Schreibweise Y � f (X ) anstelle von Y = f � X . Wir schreiben X


Zur Erläuterung: Die angegebene Definition besagt, dass jeder möglichen<br />

Merkmalsausprägung x von X eindeutig ein Wert y von Y zugeordnet ist. Das<br />

bedeutet, dass die Werte der Variablen Y eindeutig und vollständig durch die<br />

entsprechenden X-Werte determiniert sind. Man kann dies auch so ausdrücken,<br />

dass zwischen den Variablen X und Y ein strikter funktionaler Zusammenhang<br />

besteht. Zusätzlich wird vorausgesetzt, dass zwischen den Variablen X und Y die<br />

passende zeitliche Ordnung gegeben ist, d.h. dass X < Y gilt.<br />

Die Varianzbedingungen dienen wieder zur Vermeidung von kontraintuitiven<br />

Konsequenzen. Wenn nämlich Y überall in �* den konstanten Wert c annehmen<br />

würde, dann wäre für jede Variable X � Y die Bedingung Y = f(X) überall in �*<br />

erfüllt, wenn die Funktion f so definiert wird, dass f(x) = c für alle x � �X gilt.<br />

Somit bestünde ein strikter kausaler Zusammenhang zwischen Y und jeder<br />

beliebigen, zeitlich vorgeordneten Observablen X, was nicht unseren intuitiven<br />

Vorstellungen von Kausalität entspricht. Aus demselben Grund darf auch X keine<br />

Konstante sein, weil sonst wegen der funktionalen Abhängigkeit Y = f(X) auch Y<br />

eine Konstante wäre - im Widerspruch zur ersten Varianzbedingung.<br />

Beispiel: Sei Z = R 2n der Phasenraum für ein System mit n Freiheitsgraden und sei<br />

�* die Gesamtheit aller Trajektorien im Phasenraum, die die Hamiltonschen<br />

Bewegungsgleichungen erfüllen. Dann gilt Zt � * Zt´<br />

für alle t � t´<br />

, d.h. es besteht<br />

ein strikter kausaler Zusammenhang zwischen den aufeinanderfolgenden<br />

Systemzuständen. Eine analoge Aussage gilt in der Quantenmechanik für die<br />

Trajektorien im Hilbertraum. Die Varianzbedingungen sind hier trivial erfüllt. �<br />

Zwischen der hier definierten Kausalrelation X


ein stetiger Zusammenhang zwischen aufeinanderfolgenden Systemzuständen<br />

besteht, d.h. es gibt eine stetige Abbildung f : Z � Z mit Zt´ � f � Zt<br />

überall in �*.<br />

Aus der Stetigkeit folgt (nach bekannten Sätzen der Maßtheorie) die Messbarkeit<br />

*<br />

von f. Aus demselben Grund gilt Zt �m g � Zt´<br />

für alle t < t´ und alle messbaren<br />

n 2<br />

Abbildungen g : R � R . Das bedeutet anschaulich gesprochen, dass der<br />

Zustand des Systems zur Zeit t den Ort, die Geschwindigkeit oder die kinetische<br />

Energie der Teilchen zu allen nachfolgenden Zeitpunkten determiniert. �<br />

In Analogie zu dem früher angegebenen Satz 1 gilt der folgende<br />

Satz 3: Unter den Voraussetzungen von Definition 2 gelten für alle Observablen<br />

X, Y, Z die Aussagen:<br />

(i) � X


Funktionswert f(x) dasjenige, eindeutig bestimmte y � �Y ist, für das p(Y=y/X=x) = 1<br />

gilt 24 . Offenbar muss dann auch Y = f(X) überall in �* gelten. Denn wenn es eine<br />

Ausnahme �0 � �* gäbe mit Y(�0) = y0 � f(x0) für x0 = X(�0), dann könnten wir eine<br />

zulässige Verteilung p konstruieren mit p(Y = y0 � X = x0) = 1. In diesem Fall wäre<br />

einerseits p(Y= y0) = 1, also auch p(Y= y0 / X = x0) = 1. Andererseits wäre Y(�0) = y0 �<br />

f(x0), wobei f(x0) definiert ist als dasjenige, eindeutig bestimmte y � �Y mit<br />

p(Y= y / X = x0) = 1 – ein Widerspruch. �<br />

Anmerkung: Das angegebene Übersetzungstheorem ist nur anwendbar auf<br />

Observablen X und Messwerte x, für die p(X=x) > 0 gilt, weil ansonsten die<br />

bedingte Wahrscheinlichkeit p(Y=y / X=x) gar nicht definiert ist. In der Praxis<br />

wird man es jedoch vielfach mit stetigen Verteilungen zu tun haben, bei denen<br />

diese Voraussetzung nicht erfüllt ist, zum Beispiel bei normalverteilten Grössen.<br />

In diesen Fällen wird die Wahrscheinlichkeitsverteilung für die möglichen<br />

Messergebnisse durch eine Dichtefunktion (Glockenkurve) f(x) beschrieben, so<br />

dass für jedes Intervall B von möglichen Messwerten die Wahrscheinlichkeit<br />

p(X � B) durch das Integral<br />

p( X �B) � � f ( x) dx<br />

gegeben ist. Sei beispielsweise B � (a,b) = � x � R / a � x � b �. Die<br />

Wahrscheinlichkeit, dass die Observable X einen Messwert x aus dem Bereich B<br />

annimmt, entspricht dann genau der markierten Fläche unter der Glockenkurve.<br />

Wenn man den Abstand zwischen den Intervallgrenzen<br />

B<br />

immer kleiner macht, dann schrumpft<br />

die markierte Fläche gegen Null. Im<br />

Grenzfall a = b ist daher die<br />

Wahrscheinlichkeit, dass X genau den<br />

Wert a annimmt ebenfalls<br />

p(X = a) = 0<br />

wie man aus der Abbildung unschwer<br />

erkennen kann.<br />

24 Wenn es keine Trajektorie � � �* mit X ( �) � x gibt, kann der Funktionswert f(x)<br />

beliebig festgesetzt werden.<br />

49


Wenn zum Beispiel Z = R 2n der Phasenraum für ein System mit n Freiheitsgraden<br />

ist, dann gilt p( Zt<br />

� z)<br />

� 0 für jedes (Lebesgue-) stetige Wahrscheinlichkeitsmaß p.<br />

Man kann jedoch auch in diesen Fällen Funktionen p : A ��0,1�<br />

für alle Werte<br />

x<br />

� definieren, die folgende Eigenschaften besitzen 25 :<br />

x � X<br />

(1) px erfüllt fast überall die Axiome von Kolmogoroff und<br />

(2) Es gilt ( A)<br />

� p(<br />

A/<br />

X � x)<br />

für alle x mit p ( X � x)<br />

� 0<br />

p x<br />

(3) Wenn f A( x)<br />

: � px<br />

( A)<br />

, dann ist<br />

�<br />

B<br />

�<br />

f AdpX<br />

� 1 A dp für alle B � A X .<br />

�X�B� Mit anderen Worten: px(A) ist für alle Ereignisse A aus der Ereignisalgebra und für<br />

alle möglichen Werte x von X definiert und besitzt fast überall die Eigenschaften<br />

einer bedingten Wahrscheinlichkeit, d.h. es gilt fast überall die Ungleichung 0 �<br />

px(A) � 1, fast überall px(�) = 1 und für jede abzählbare Folge A1, A2,..., An,... von<br />

paarweise disjunkten Ereignissen gilt fast überall das spezielle Additionsprinzip.<br />

„Fast überall“ bedeutet, dass die betreffenden Gleichungen für alle möglichen<br />

Werte x aus �X bis auf eine Teilmenge N � �X gültig sind, wobei die Ausnahmen<br />

nur mit einer Wahrscheinlichkeit p(X � N) = 0 auftreten dürfen. Für den Fall, dass<br />

p(X=x) > 0 ist, stimmt px(A) = p( A / X � x)<br />

mit der gewöhnlichen bedingten<br />

Wahrscheinlichkeit überein. Die Konstruktion von px(A) wird im <strong>Mathematische</strong>n<br />

Anhang beschrieben. Man sollte beachten, dass die Funktion px durch diese<br />

Konstruktion nicht eindeutig definiert ist. Man kann aber zeigen, dass<br />

verschiedene Versionen px, px´ der bedingten Wahrscheinlichkeit fast überall in �X<br />

übereinstimmen, d.h. es gilt px = px´ für fast alle x aus �X. Wir verwenden daher<br />

im folgenden auch die etwas ungenaue, aber übliche Schreibweise<br />

p( A / X � x)<br />

anstelle von px(A). Wir können dann unser „Übersetzungstheorem“<br />

auch auf stetige Variablen anwenden und erhalten dabei die modifizierte Version:<br />

Satz 5: Unter den Voraussetzungen von Satz 4 gilt X < m* Y genau dann, wenn<br />

eine messbare Funktion f : �X � �Y existiert, so dass p( Y � f ( x) / X � x)<br />

= 1<br />

für alle zulässigen Wahrscheinlichkeitsmaße p: A � �0,1� und für pX-fast alle x �<br />

�X gilt.<br />

Beweis: (�) Sei X


p(Y = y/X = x) = E(1�Y=y� /X = x). Wir müssen also zeigen, dass E(1�Y=f(x)� /X = x) = 1 für<br />

pX-fast alle x � �X gilt. Nach Voraussetzung gilt jedenfalls<br />

(1) Y = f(X) überall in �*, also<br />

(2) 1�Y=y� = 1�f(X)=y� überall in �*. Nach Lemma 5 gilt<br />

(3) E(1�Y=y� /X) = E(1� f(X)=y � /X) p-fast überall, weil p ein zulässiges W-Maß ist.<br />

Andererseits gilt nach Anhang A 4.2.(2)<br />

(4) E(1� f(X)=y � /X) = 1�f(X)=y� p-fast überall, weil 1�f(X)=y� messbar in X ist.<br />

Aus den Gleichungen (2) – (4) folgt unmittelbar, dass<br />

(5) 1�Y=y� = E(1�Y=y� /X) p-fast überall in �* gilt. Nach Voraussetzung (1) gilt<br />

(6) 1�Y=y�(�) = 1 � Y(�) = y � f(X(�)) = y für alle � � �*. Aus (5) und (6) folgt<br />

(7) E(1�Y=y� /X)(�) = 1 � f(X(�)) = y p-fast überall in �*, also<br />

(8) E(1�Y=y� /X = x) = 1 � f(x) = y für pX-fast alle x � �X, und somit<br />

(9) E(1�Y=f(x)� /X = x) = 1 für pX-fast alle x � �X.<br />

(�) Sei f : �X � �Y eine messbare Funktion mit den angegebenen Eigenschaften. Dann<br />

gilt: p(Y = f(x) /X = x) = 1 für alle zulässigen W-Maße p und pX-fast alle x � �X. Sei nun<br />

x0 ein beliebiges in �* erreichbares 26 Element x0 � �X und sei P* die Klasse aller<br />

zulässigen W-Maße p: A � R mit p*(X=x0) = 1. Dann gilt<br />

(1) p(Y = f(x) /X = x) = 1<br />

für alle p � P* und pX-fast alle x � �X. Da nach Voraussetzung p(X=x0) = 1 ist, gilt<br />

insbesondere<br />

(2) p(Y = f(x0) /X = x0) = 1<br />

für alle p � P*. Wir behaupten nun, dass Y(�) = f(x0) für alle � � �* mit X(�) = x0 gilt 27 .<br />

Wenn nämlich y0 := Y(�) � f(x0) wäre, dann könnten wir eine zulässige Verteilung p so<br />

konstruieren, dass gilt<br />

(3) p(Y = y0 � X = x0) = 1,<br />

also auch p(X=x0) = 1, also p � P*, aber p(Y = f(x0)/ X = x0) = 0 – im Widerspruch zu<br />

(2). Da x0 � �X beliebig gewählt war, lässt sich diese Überlegung für alle in �*<br />

erreichbaren Werte x � �X durchführen. Wir erhalten somit Y(�) = f(x) für alle � � �*<br />

mit X(�) = x, also Y = f(X) überall in �*, was zu beweisen war. �<br />

Die angegebenen Übersetzungstheoreme zeigen, dass ein enger Zusammenhang<br />

zwischen Kausalität und bedingter Wahrscheinlichkeit besteht, in dem Sinne, dass<br />

Aussagen über kausale Abhängigkeiten in logisch äquivalente Aussagen über<br />

26 d.h. es gibt einen Pfad � � �* mit X(�) = x0, auf dem die Observable tatsächlich den<br />

Wert x0 annimmt.<br />

27 solche � � �* existieren tatsächlich, weil nach Voraussetzung x0 in �* erreichbar ist.<br />

51


edingte Wahrscheinlichkeiten oder bedingte Erwartungen übersetzbar sind. Das<br />

nachfolgende Theorem zeigt, dass der Kausalitätsbegriff auch durch den Begriff<br />

der bedingten Unabhängigkeit charakterisiert werden kann.<br />

Zwei Observablen Y und Z sind stochastisch unabhängig (relativ zu einem<br />

Wahrscheinlichkeitsmaß p), wenn für alle messbaren Mengen A � AY und B � AZ<br />

die Gleichung<br />

p(Y � A, Z � B) = p(Y � A) � p(Z � B)<br />

erfüllt ist. Wir schreiben dafür kurz Y �p Z. Sei nun X irgendeine dritte<br />

Observable. Dann gilt: Y und Z sind X-bedingt stochastisch unabhängig bezüglich<br />

p, wenn die Gleichungen<br />

p(Y � A, Z � B / X) = p(Y � A / X) � p(Z � B / X)<br />

für alle A � AX und alle B � AY erfüllt sind. Wir schreiben dafür abkürzend<br />

Y �p Z / X . Das nachfolgende Theorem zeigt, dass eine X-bedingte stochastische<br />

Unabhängigkeit zwischen Y und jeder beliebigen weiteren Variablen Z besteht,<br />

wenn X


Ein Vergleich der Gleichungen (1) und (2) zeigt, dass<br />

p(Y � A, Z � B / X) = p(Y � A / X) � p(Z � B / X), also Y �p Z / X gilt.<br />

Wir können also aus einem strikten kausalen Zusammenhang zwischen X und Y<br />

stets auf die X-bedingte stochastische Unabhängigkeit zwischen Y und jeder<br />

beliebigen dritten Variablen Z schließen. Das ist auch intuitiv einleuchtend, weil<br />

X


� �� � ( 1�<br />

�) ��<br />

mit 0 < � < 1. Dabei sind ��1 und ��2 wieder die Ein-Punkt-Maße,<br />

�1 �2<br />

die die gesamte Einheitsmasse in den Punkten �1 und �2 konzentrieren, d.h. es gilt<br />

��1 (A) = 1 � �1 � A und ��1 (A) = 0, sonst, für alle A � A* (und analog für ��2 ). In<br />

diesem Fall wäre aber offensichtlich nicht Y �p* Y / X, da p*(Y = y1, Y = y2 / X = x) = 0,<br />

aber p*(Y = y1/ X = x) � p(Y = y2/ X = x) = � . (1 � �) � 0 wäre – im Widerspruch zur<br />

Voraussetzung. �<br />

Zusammenfassung: Wir wollen hier noch einmal die wichtigsten Konzepte aus<br />

diesem Kapitel zusammenfassen:<br />

� Eine Observable ist eine messbare Abbildung X : � � �X<br />

� �X = alle möglichen Werte der Observablen X<br />

� � X = x � ist das Ereignis, das eintritt, wenn X den Wert x annimmt.<br />

� � X � B � ist das Ereignis, das eintritt, wenn X einen Wert x � B annimmt.<br />

� X < Y gilt, wenn es einen Zeitpunkt t gibt, so dass X messbar in t ist, Y nicht.<br />

� X


7. Kausale Regressionsmodelle und bedingte Erwartungswerte 28<br />

Im folgenden sei wieder � = �t�T Z die Gesamtheit aller möglichen Trajektorien<br />

durch den Zustandsraum eines physikalischen Systems. Es gibt dann im<br />

Allgemeinen sehr viele unterschiedliche Observablen, die wir dem System<br />

zuordnen können. Der wichtigste Fall sind jedoch zweifellos reellwertige<br />

Variablen Y: � � R, die die möglichen Ergebnisse von physikalischen<br />

Messungen repräsentieren. Solchen Observablen kann man sinnvoll einen<br />

Erwartungswert E(Y) zuordnen, der das wahrscheinlichkeitstheoretische Mittel<br />

aus allen möglichen Messergebnissen repräsentiert. Für den Fall, dass Y nur<br />

endlich viele Werte y1,…,yn annehmen kann, definieren wir den Erwartungswert<br />

durch die Gleichung<br />

n<br />

�<br />

i�1<br />

E( Y) � y � p( Y � y )<br />

Mit anderen Worten: Wir gewichten jeden möglichen Messwert mit seiner<br />

Wahrscheinlichkeit und bilden dann die Summe aus den so gewichteten Werten.<br />

Wenn die Observable Y dagegen überabzählbar unendlich viele Werte annehmen<br />

kann, muss die Summe durch ein Lebesgue-Integral ersetzt werden, d.h.<br />

i<br />

E( Y) � � Ydp<br />

Die Konstruktion dieser Integrale wird im mathematischen Anhang erläutert. Im<br />

Spezialfall einer „Indikatorvariable“ Y = 1A entspricht der Erwartungswert gerade<br />

der Wahrscheinlichkeit für das Ereignis A, d.h. E(1A) = p(A). Solche Variablen<br />

werden gelegentlich auch als Ja-Nein-Observablen bezeichnet, weil sie die<br />

möglichen Ergebnisse einer Ja-Nein-Messung repräsentieren, wobei die Messung<br />

genau dann zum Ergebnis 1 = ja führt, wenn das Ereignis A eintritt, und sonst zum<br />

Ergebnis 0 = nein.<br />

Beispiel: Als Beispiel betrachten wir wieder die Logikschaltkreise aus Kapitel 4. Wir<br />

definieren Zufallsvariablen X1, X2, Y: � �� 0,1 � durch folgende Festsetzungen: Für<br />

jedes Tripel (i,j,k) aus � sei X1(i,j,k) = i, X2(i,j,k) = j und Y(i,j,k) = k. Mit anderen Worten:<br />

X1 gibt den Zustand des ersten Eingangs, X2 den Zustand des zweiten Eingangs und Y gibt<br />

den Zustand am Ausgang an. Mögliche Werte sind jeweils 1 = Strom oder 0 = kein Strom.<br />

Ferner seien A1 ,…, A4 die Ereignisse<br />

28 Dieser Abschnitt setzt den Begriff der bedingten Erwartung voraus. Die entsprechenden<br />

mathematischen Begriffsbildungen sind im mathematischen Anhang, Abschnitt 4 zu finden. Für<br />

eine ausführliche Darstellung vgl. zum Beispiel H. Bauer, Kap. X.<br />

i<br />

55


A1 = � X1 = 1, X2 = 1 � = beide Eingänge führen Strom.<br />

A2 = � X1 = 1, X2 = 0 � = nur der erste Eingang führt Strom.<br />

A3 = � X1 = 0, X2 = 1 � = nur der zweite Eingang führt Strom.<br />

A4 = � X1 = 0, X2 = 0 � = keiner der beiden Eingänge führt Strom.<br />

Offenbar gilt dann X1 = 1 genau dann, wenn das Ereignis A1 oder das Ereignis A2 eintritt,<br />

und X2 = 1 genau dann, wenn das Ereignis A1 oder das Ereignis A3 eintritt. Somit ist X1<br />

eine Indikatorvariable für das Ereignis A1 � A2 und X2 eine Indikatorvariable für A1 � A3,<br />

d.h. X1 = 1A1 � A2<br />

und X2 = 1A1 � A . Ferner betrachten wir die Ereignisse<br />

3<br />

B = � Y = 1 � = Birne brennt, und<br />

B = � Y = 0 � = Birne brennt nicht.<br />

Definitionsgemäß gilt dann Y = 1 genau dann, wenn B eintritt, d.h. Y = 1B. Wenn nun alle<br />

Ereignisse A1 ,…, A4 mit derselben Wahrscheinlichkeit von 0.25 eintreten, dann ist der<br />

Erwartungswert von Y ebenfalls<br />

E( Y) = 1� p( Y � 1) � 0� p( Y � 0)<br />

� p( B)<br />

= 0.25<br />

Bei der Analyse von kausalen Zusammenhängen X


E( Y / Xi �1) = 1� p( Y �1/ Xi �1) � 0� p( Y � 0 / Xi � 0) � p( B / Xi<br />

�1)<br />

= 0.5 für i =<br />

1,2. Ebenso gilt E( Y / Xi � 0 ) = 0.5 für i = 1,2.<br />

Wenn Y eine beliebige reellwertige Observable ist, dann können wir eine neue<br />

Zufallsvariable Z definieren, die jedem Pfad � � � den bedingten Erwartungswert<br />

E( Y / X � X(<br />

�)) zuordnet. Diese Zufallsvariable wird auch als die bedingte<br />

Erwartung von Y in Bezug auf X bezeichnet und mit Z = E( Y / X ) notiert. 29<br />

Man sollte beachten, dass Erwartungswerte und bedingte Erwartungswerte von<br />

dem zugrundeliegenden Wahrscheinlichkeitsmaß abhängig sind. Wir schreiben<br />

daher gelegentlich auch Ep( Y)<br />

bzw. Ep( Y / X ) um zu verdeutlichen, welches<br />

Wahrscheinlichkeitsmaß gemeint ist. Verschiedene Wahrscheinlichkeitsmaße<br />

führen im Allgemeinen zu unterschiedlichen Erwartungswerten, d.h. es gilt im<br />

Allgemeinen nicht E ( Y) � E � ( Y)<br />

, wenn p � p´ ist.<br />

p p<br />

Wir sind im folgenden vor allem an den bedingten Erwartungswerten in Bezug auf<br />

zulässige Wahrscheinlichkeitsmaße interessiert. Sei dazu wieder S ein<br />

physikalisches System mit Zustandsraum Z und �* � �t�T Z die Gesamtheit aller<br />

physikalisch möglichen Pfade durch den Zustandsraum. Dann gilt das folgende<br />

Lemma 5: Seien Y1, Y2: � � R reellwertige Zufallsvariablen mit Y1 = Y2 überall<br />

in �*. Dann gilt p-fast überall E(Y1/X) = E(Y2/X) für alle zulässigen<br />

Wahrscheinlichkeitsmaße p und alle Variablen X: � � �X.<br />

Beweis: Nach Definition der bedingten Erwartung gilt<br />

� �<br />

� �<br />

E( Y1 / X ) dp � Y1dp und E( Y2 / X ) dp � Y2dp A A<br />

A A<br />

für alle Ereignisse A � A(X). Es genügt daher zu zeigen, dass<br />

� �<br />

Y1dp � Y2dp A A<br />

für alle A � A(X) gilt. Da p ein zulässiges Wahrscheinlichkeitsmaß ist, muss<br />

� �<br />

Yidp � Yidp * für i = 1, 2<br />

A A*<br />

29<br />

Die bedingte Erwartung ist nur fast eindeutig definiert, weil die Funktionswerte<br />

E( Y / X � x)<br />

definitionsgemäß von der gewählten Version der bedingten<br />

Wahrscheinlichkeit pX=x abhängig sind. Verschiedene Versionen der bedingten Erwartung<br />

unterscheiden sich aber höchstens auf einer Menge vom Maß Null.<br />

57


gelten. Nach Voraussetzung ist aber Y1 = Y2 überall in �*, also gilt trivialerweise für die<br />

Erwartungswerte<br />

� �<br />

Y1dp* � Y2dp *<br />

A* A*<br />

Wenn Y eine reellwertige Variable ist, dann kann die kausale Abhängigkeit<br />

zwischen X und Y auch mithilfe der bedingten Erwartung E(Y/X) charakterisiert<br />

werden. Sei dazu S ein physikalisches System wie in Satz 4 und seien X, Y<br />

Observablen mit X < Y und Y : � � R. Dann gilt der<br />

Satz 6.a: Wenn X


aber keine p*-Nullmenge N mit �1� N. Somit ist Ep*(Y/X)(�1) = E p*(Y/X=x) = Y(�1) =<br />

y1. Ebenso gilt aber Ep*(Y/X=x) = Y(�2) = y2 – ein Widerspruch, da y1 � y2 ist. �<br />

Wir haben früher gesehen, dass aus einer kausalen Abhängigkeit zwischen zwei<br />

Variablen X


E(Y /X=x) = � E(Y / X=x, Z=z) pZ(dz)<br />

Z spielt bei Steyer die Rolle einer potentiellen „Störvariablen“, weil im<br />

Allgemeinen die durch X allein bedingten Erwartungswerte von Y nicht mit den<br />

durch X und Z bedingten Erwartungswerten übereinstimmen müssen 32 .<br />

Anstelle einer einzelnen Observablen Z kann man natürlich auch jede beliebige<br />

Anzahl Z1,...,Zk von potentiellen Störvariablen betrachten.<br />

Folgerung: Sei X


Regressanden und seinem X-bedingten Erwartungswert an. Definitionsgemäß gilt<br />

für die Erwartungswerte die Beziehung<br />

E(Y) = E(f (X1,...,Xk))<br />

Somit gilt für die Residualvariable E(�) = 0. Die bedingten Erwartungswerte<br />

korrelieren nicht mit dem Residuum, so dass Cov(f (X1,...,Xk), �) = 0 ist. Daher gilt<br />

für Y die folgende Varianzzerlegung:<br />

Der Anteil<br />

2<br />

Var(Y) = Var(f (X1,...,Xk)) + Var(�)<br />

R ( Y / X ,..., X ) =<br />

1<br />

k<br />

wird als Determinationskoeffizient bezeichnet. Definitionsgemäß kann der<br />

Koeffizient nur Werte zwischen 0 und 1 annehmen. Der Determinationskoeffizient<br />

gibt an, welcher Prozentsatz der Gesamtvarianz von Y durch die<br />

Regressorvariablen X1,...,Xk erklärt werden kann. Die positive Quadratwurzel aus<br />

R 2 (Y/ X1,...,Xk) wird als multipler Korrelationskoeffizient bezeichnet. Er stimmt<br />

im Spezialfall der einfachen linearen Regression f(X) = � + ��X bis auf das<br />

Vorzeichen immer mit dem gewöhnlichen Korrelationskoeffizienten �XY überein.<br />

Deterministische Modelle X < m* Y mit Y = f(X) können auf natürliche Weise als<br />

Grenzfälle von Regressionsmodellen f(X) = E(Y/ X1,...,Xk) aufgefasst werden, bei<br />

denen der Determinationskoeffizient seinen Maximalwert annimmt. Nach Satz 6.a<br />

muss nämlich unter der Annahme X


Satz 9.a: Wenn X


Dabei ist zu beachten, dass bei den Sätzen 6 – 9 nur die Implikationen von links<br />

nach rechts allgemeingültig sind, d.h. man kann aus der Gültigkeit der Aussagen in<br />

der linken Spalte uneingeschränkt auf die Gültigkeit der entsprechenden Aussagen<br />

in der rechten Spalte schließen. Dagegen kann in der Umkehrrichtung von rechts<br />

nach links im Allgemeinen nur auf die Existenz eines kausalen Zusammenhangs,<br />

aber nicht auf dessen Messbarkeit geschlossen werden, also auf X


8. Deterministische Prozesse<br />

Das wichtigste Anwendungsfeld für den klassischen Kausalitätsbegriff ist die<br />

Analyse von deterministischen Systemen und deterministischen Prozessen. Das<br />

charakteristische Merkmal von deterministischen Systemen besteht in dem<br />

Umstand, dass zu jedem möglichen Zustand, in dem sich das System zu<br />

irgendeinem Zeitpunkt t befinden kann, ein eindeutig bestimmter<br />

Nachfolgezustand für alle späteren Zeitpunkte t´> t existiert. Mit anderen Worten:<br />

Die Zustandsübergänge von deterministischen Systemen sind vollständig und<br />

eindeutig durch die entsprechenden Bewegungsgesetze und die jeweiligen<br />

„Anfangsbedingungen“ festgelegt.<br />

Ein paradigmatisches Beispiel ist die Bewegung von Teilchen nach Gesetzen der<br />

klassischen Mechanik, wie wir sie in den vorangegangenen Kapiteln<br />

kennengelernt haben. Wir haben gesehen, dass die Zustandsübergänge eines<br />

physikalischen Systems, also sein Weg durch den Phasenraum vollständig und<br />

eindeutig durch die Hamiltonschen Bewegungsgleichungen festgelegt sind. Auf<br />

ähnliche Weise sind die Bewegungen der Teilchen im Konfigurationsraum<br />

vollständig und eindeutig durch die Lagrange-Gleichungen in Verbindung mit<br />

geeigneten Anfangsbedingungen bestimmt.<br />

In den folgenden Kapiteln wollen wir eine allgemeine Theorie deterministischer<br />

Prozesse entwickeln. Die wichtigsten Merkmale von deterministischen Systemen<br />

lassen sich dabei unschwer aus den genannten Beispielen abstrahieren. Sei dazu S<br />

irgendein physikalisches System. Mit Z bezeichnen wir die Gesamtheit aller<br />

möglichen Zustände, in denen sich das System zu irgendeinem Zeitpunkt befinden<br />

kann. Im Beispiel der klassischen (Hamilton-) Mechanik ist Z � R 2n der klassische<br />

Phasenraum, wenn das System n Freiheitsgrade besitzt. Wir bezeichnen im<br />

folgenden Z als den Zustandsraum des Systems.<br />

Bei der Analyse von kausalen Zusammenhängen interessieren wir uns nicht nur<br />

für die möglichen Zustände, sondern vor allem für die möglichen<br />

Zustandsänderungen eines physikalischen Systems. Dazu betrachten wir das<br />

System in einem (endlichen oder unendlichen) Beobachtungszeitraum T � R. Wir<br />

unterstellen, dass eine lineare Ordnungsrelation < auf T definiert ist, die die<br />

zeitliche Reihenfolge bestimmt. Mit<br />

� = �t�T Z<br />

bezeichnen wir die Gesamtheit alle möglichen Pfade (= Trajektorien) durch den<br />

Zustandsraum. Jeder Pfad ist eine Abbildung der Form � : T � Z.<br />

64


�(t) repräsentiert also den Zustand des Systems zur Zeit t, falls sich das System<br />

auf dem Pfad � durch den Zustandsraum bewegt. In der Realität werden die<br />

möglichen Zustandsübergänge durch physikalische Gesetzmäßigkeiten<br />

eingeschränkt. Im Fall der klassischen Mechanik handelt es sich um die<br />

Hamiltonschen Bewegungsgleichungen, die wir früher kennengelernt haben. Mit<br />

�* � �t�T Z<br />

bezeichnen wir die Gesamtheit aller möglichen Trajektorien im Zustandsraum, die<br />

den Bewegungsgesetzen entsprechen. Wir erhalten auf diese Weise eine echte<br />

Teilmenge von �.<br />

Grundlegend für alle weiteren Überlegungen ist die folgende Definition:<br />

Definition: Sei S ein physikalisches System mit dem Zustandsraum Z und sei �*<br />

� �t�T Z die Gesamtheit aller physikalisch möglichen Pfade durch den<br />

Zustandsraum. Dann ist S ein deterministisches System in Bezug auf �*, wenn für<br />

alle Pfade �1, �2 � �* und alle Zeitpunkte t, t´� T mit t < t´ die folgende<br />

Bedingung erfüllt ist:<br />

�1(t) = �2(t) � �1(t´) = �2(t´)<br />

Mit anderen Worten: Wenn beide Pfade zur Zeit t zum selben Zustand führen,<br />

dann führen die beiden Pfade auch zu allen nachfolgenden Zeitpunkten zu<br />

denselben Zuständen. Das entspricht natürlich der intuitiven Idee, dass bei Pfaden<br />

durch den Zustandsraum eines deterministischen Systems keine „Verzweigungen“<br />

möglich sind: Die Zukunft des Systems ist vollständig durch seine Gegenwart und<br />

Vergangenheit bestimmt.<br />

Beispiel: Hamiltonsche Mechanik. Sei Z � R 2n der Zustandsraum (Phasenraum)<br />

für ein Teilchensystem S mit n Freiheitsgraden und sei �H* � �t�T Z die<br />

Gesamtheit aller Trajektorien durch den Phasenraum, die den Hamiltonschen<br />

Bewegungsgleichungen gehorchen. Dann ist S ein deterministisches System<br />

bezüglich �H*.<br />

Der Beweis dieser Behauptung ergibt sich aus der früher erläuterten Existenz und<br />

Eindeutigkeit der Lösungen der Hamiltonschen Bewegungsgleichungen.<br />

„Systeme“ und „Prozesse“: Die Zustandsübergänge eines deterministischen<br />

Systems bilden definitionsgemäß einen deterministischen Prozess.<br />

Deterministische Prozesse können aber auch in einen größeren,<br />

indeterministischen Kontext „eingebettet“ sein. Wir können deterministische<br />

65


Prozesse ganz allgemein definieren, indem wir die relevanten Systemzustände als<br />

Funktionen auf den Trajektorien des Systems definieren.<br />

Definition: Sei S ein physikalisches System mit Zustandsraum Z und sei �* �<br />

�t�T Z die Gesamtheit aller physikalisch möglichen Pfade durch den<br />

Zustandsraum. Eine Familie von Funktionen Zt : � � Zt ist ein deterministischer<br />

Prozess 33 in Bezug auf �*, wenn für alle Pfade �1, �2 � �* die folgende<br />

Bedingung erfüllt ist:<br />

Zt(�1) = Zt(�2) � Zt´(�1) = Zt´(�2)<br />

Wir bezeichnen (Zt)t�T als einen Prozess in kanonischer Form, wenn Zt = Z und<br />

Zt(�) = �(t) für alle t � T und alle � � � gilt. Offenbar ist dann S ein<br />

deterministisches System, wenn (Zt)t�T ein deterministischer Prozess in<br />

kanonischer Form ist und vice versa.<br />

Die angegebene Definition ist offenbar äquivalent mit der folgenden Aussage:<br />

(Zt)t�T ist ein deterministischer Prozess in �*, wenn für alle Zeitpunkte t < t´ und<br />

für jeden in t erreichbaren Zustand 34 z � Zt genau ein Nachfolgezustand z´ � Zt´<br />

existiert, so dass<br />

Zt(�) = z � Zt´(�) = z´<br />

für alle physikalisch möglichen Pfade � � �* durch den Zustandsraum gilt.<br />

Die Unterscheidung zwischen Prozessen in kanonischer Form und nichtkanonischen<br />

Prozessen kann durch die folgenden Beispiele verdeutlicht werden:<br />

Beispiel: Sei �H* die Gesamtheit aller Pfade durch den klassischen Phasenraum, die die<br />

Hamiltonschen Bewegungsgleichungen erfüllen. Ferner sei Zt(�) = �(t) für alle t � T und<br />

alle � � �H. Dann ist (Zt)t�T ein deterministischer Prozess in kanonischer Form bezüglich<br />

�H*.<br />

Gegenbeispiel: Sei �L* die Gesamtheit aller Pfade durch den n-dimensionalen<br />

Konfigurationsraum, die das klassische Wirkungsprinzip erfüllen. Ferner sei Zt(�) =<br />

< �, t),...,<br />

q ( �,<br />

t),<br />

q�<br />

( �,<br />

t),...,<br />

q�<br />

( �,<br />

t)<br />

> für alle t � T und alle C � -Pfade � � �L. Dann<br />

q1( n 1<br />

n<br />

ist (Zt)t�T ein deterministischer Prozess bezüglich �L*, aber nicht in kanonischer Form,<br />

weil die Zustände nicht die Form Zt(�) = �(t) besitzen.<br />

33 Zt ist der Wertebereich von Zt. Bei Prozessen in kanonischer Form ist Zt = Z für alle t.<br />

34 Damit ist gemeint, dass mindestens ein Pfad � � �* existiert mit Zt(�) = z.<br />

66


Der Unterschied zwischen dem kanonischen und dem nicht-kanonischen Fall<br />

besteht also im Wesentlichen darin, dass im kanonischen Fall die möglichen Werte<br />

der Observablen Zt mit den jeweiligen Systemzuständen identisch sind, während<br />

im nicht-kanonischen Fall die Zt –Werte von den Systemzuständen abhängig, aber<br />

mit diesen nicht identisch sind. Tatsächlich kann man zu jedem deterministischen<br />

Prozess einen „äquivalenten“ Prozess in kanonischer Form konstruieren. 35 Wir<br />

werden daher im folgenden immer unterstellen, dass es sich bei den von uns<br />

betrachteten Vorgängen um Prozesse in kanonischer Form handelt, wenn nicht<br />

ausdrücklich etwas anderes angegeben ist. Dadurch vereinfacht sich die folgende<br />

Darstellung teilweise ganz erheblich.<br />

Der nachfolgende Satz besagt, dass eine Familie (Zt)t�T von Funktionen Zt : � � Zt<br />

genau dann einen deterministischen Prozess bildet, wenn ein strikter kausaler<br />

Zusammenhang zwischen aufeinanderfolgenden Systemzuständen besteht.<br />

Satz: Sei S ein physikalisches System mit dem Zustandsraum Z und sei �* �<br />

�t�T Z die Gesamtheit aller physikalisch möglichen Pfade durch den<br />

Zustandsraum. Ferner sei (Zt)t�T eine Familie von Observablen Zt : � � Z. Dann<br />

sind die folgenden Aussagen äquivalent:<br />

(1) (Zt)t�T ist ein deterministischer Prozess in �*.<br />

(2) Es besteht ein strikter kausaler Zusammenhang zwischen aufeinanderfolgenden<br />

Systemzuständen, d.h. für alle t, t´ � T mit t < t´ gilt Zt


zugehörigen Nachfolgezustand zu t´ an. Die Funktion beschreibt somit die<br />

Zustandsübergänge von t zu t´. Solche Funktionen werden wir im folgenden auch<br />

als dynamische Transformationen bezeichnen.<br />

Determinismus vorwärts und rückwärts: In der klassischen Physik werden<br />

physikalische Prozesse durch Differentialgleichungen beschrieben, die in<br />

Verbindung mit geeigneten Anfangsbedingungen immer eindeutige Lösungen<br />

besitzen. Das bedeutet, dass durch die Anfangsbedingungen zu irgendeinem<br />

Zeitpunkt t nicht nur die nachfolgenden, sondern auch die vorhergehenden<br />

Zustände des Systems eindeutig festgelegt sind. Demgegenüber wird in der oben<br />

angegebenen Definition nur die Determination der Nachfolgezustände durch die<br />

Anfangsbedingungen gefordert. Wir können diese Einseitigkeit beheben, indem<br />

wir explizit zwischen vorwärts- und rückwärts-deterministischen Prozessen<br />

unterscheiden:<br />

Definition: Sei S ein physikalisches System mit Zustandsraum Z und sei �* �<br />

�t�T Z die Gesamtheit aller physikalisch möglichen Pfade durch den<br />

Zustandsraum. Ferner sei Zt(�) = �(t) für alle t � T und alle � � �. Dann gilt:<br />

(1) (Zt)t�T heißt rückwärts-deterministisch in �*, wenn für alle Zeitpunkte t, t´ �<br />

T mit t´< t und alle möglichen Zustände z � Z genau ein Vorgängerzustand z´ �<br />

Z existiert, so dass Zt(�) = z � Zt´(�) = z´ für alle � � �* gilt.<br />

(2) (Zt)t�T heißt vorwärts-deterministisch in �*, wenn für alle Zeitpunkte t, t´ �<br />

T mit t < t´ und alle möglichen Zustände z � Z genau ein Nachfolgezustand z´ �<br />

Z existiert, so dass Zt(�) = z � Zt´(�) = z´ für alle � � �* gilt.<br />

(3) (Zt)t�T heißt bideterministisch in �*, wenn (Zt)t�T vorwärts- und rückwärtsdeterministisch<br />

in �* ist.<br />

Unsere ursprüngliche Definition entspricht dann genau der Bedingung für<br />

vorwärts-deterministische Prozesse. Im folgenden verstehen wir daher unter<br />

„deterministischen Prozessen“ immer vorwärts-deterministische Prozesse, wenn<br />

nicht ausdrücklich etwas Anderes angegeben ist. Für bideterministische Prozesse<br />

lässt sich auch die folgende äquivalente Charakterisierung angeben:<br />

Satz: Unter den eben angegebenen Voraussetzungen gilt:<br />

(Zt)t�T ist bideterministisch in �* genau dann, wenn für alle Zeitpunkte t, t´ � T<br />

(unabhängig von der zeitlichen Reihenfolge) und für alle Zustände z � Z genau<br />

ein (Vorgänger oder Nachfolger) z´ � Z existiert, so dass Zt(�) = z � Zt´(�) = z´<br />

für alle � � �* gilt.<br />

68


Der Beweis ist trivial.<br />

Speziell für bideterministische Prozesse lässt sich auch die folgende<br />

Charakterisierung angeben:<br />

Satz vom eindeutigen Pfad: Unter den oben angegebenen Voraussetzungen sind<br />

die folgenden Aussagen äquivalent:<br />

(1) (Zt)t�T ist ein bideterministischer Prozess in �*.<br />

(2) Für alle t � T und alle zu t möglichen Zustände z � Z gibt es genau einen Pfad<br />

� � �* durch den Zustandsraum, so dass gilt: Zt(�) = z.<br />

Übersetzungsregeln: Sei im folgenden (Zt)t�T ein deterministicher Prozess mit<br />

einem Zustandsraum der Form Z = R n . Wir haben oben gezeigt, dass in<br />

deterministischen Prozessen ein strikter kausaler Zusammenhang zwischen<br />

aufeinanderfolgenden Systemzuständen besteht. Jedem möglichen<br />

Ausgangszustand des Systems zu irgendeinem Zeitpunkt t wird dabei durch<br />

geeignete dynamische Transformationen ein entsprechender Nachfolgezustand zur<br />

Zeit t´ zugeordnet. Der oben bewiesene Satz garantiert zwar die Existenz, aber im<br />

Allgemeinen nicht die Messbarkeit der dynamischen Transformationen. Wir<br />

bezeichnen im folgenden (Zt)t�T als deterministischen Prozess mit messbaren<br />

Zustandsübergängen, wenn Zt


Sei nun Z = R n und sei A = �t�T B(R n ) die Produktalgebra auf dem Raum der<br />

Trajektorien. Dies ist definitionsgemäß die kleinste Ereignisalgebra auf � =<br />

�t�T Z, in der alle Zustände Zt messbar sind. Ferner sei p: A � �0,1� ein zulässiges<br />

Wahrscheinlichkeitsmaß auf den Trajektorien. Wir können dann unmittelbar die<br />

Übersetzungsregeln aus den vorhergehenden Kapiteln anwenden und erhalten<br />

dadurch den folgenden<br />

Satz: Sei S ein physikalisches System mit dem Zustandsraum Z = R n und sei A =<br />

�t�T B(R n ). Ferner sei �* � �t�T Z die Gesamtheit aller physikalisch möglichen<br />

Pfade durch den Zustandsraum und sei (Zt)t�T ein deterministischer Prozess mit<br />

messbaren Zustandsübergängen in �*. Dann gilt:<br />

(1) Für alle t, t´ � T mit t < t´ gibt es messbare Funktionen f t,t´<br />

: Z � Z so dass<br />

p( Zt<br />

´ � ft,<br />

t´<br />

( z)<br />

/ Zt<br />

� z)<br />

�1<br />

für alle zulässigen Wahrscheinlichkeitsmaße<br />

p: A � �0,1� und p -fast alle Zustände z � Z gilt .<br />

Zt<br />

(2) Für alle t, t´ � T mit t < t´ gilt p-fast überall Z � E Z / Z ) für alle<br />

t´<br />

p ( t´<br />

t<br />

zulässigen Wahrscheinlichkeitsmaße p: A � �0,1�<br />

(3) Für alle t, t´ � T mit t < t´ , für alle zulässigen Wahrscheinlichkeitsmaße<br />

p: A � �0,1� und beliebige Variablen Y gilt Z t´<br />

� p Y / Zt<br />

(4) Für alle t, t´ � T mit t < t´ , für alle zulässigen Wahrscheinlichkeitsmaße<br />

p: A � �0,1� und alle Variablen Y gilt p-fast überall<br />

Z / Z ) E ( Z / Z , Y)<br />

E p ( t´<br />

t � p t´<br />

t<br />

(5) Für alle t, t´ � T mit t < t´ und alle zulässigen Wahrscheinlichkeitsmaße<br />

2<br />

p: A � �0,1� gilt R Z / Z ) �1<br />

p ( t´<br />

t<br />

Beweis: Der Beweis ergibt sich unmittelbar aus den entsprechenden<br />

„Übersetzungstheoremen“ der vorhergehenden Kapitel. �<br />

Zur Erläuterung: Die Aussage (1) besagt, dass das System zur Zeit t´ mit<br />

Sicherheit (d.h. mit Wahrscheinlichkeit 1) in den Zustand ( ) übergeht, wenn<br />

ft, t´<br />

z<br />

zur Zeit t der Ausgangszustand z vorliegt. Dabei ist f t,t´<br />

: Z � Z die dynamische<br />

Transformation auf dem Zustandsraum, die jedem möglichen Ausgangszustand<br />

des Systems zur Zeit t den zugehörigen Nachfolgezustand zu t´ zuordnet.<br />

(2) Dementsprechend ist der Nachfolgezustand Zt´ p-fast überall 36 identisch mit<br />

seinem durch den Ausgangszustand Zt bedingten Erwartungswert. Der Index p in<br />

36 d.h. mit Ausnahme von Zustandsmengen, die höchstens die Wahrscheinlichkeit Null<br />

besitzen.<br />

70


E Z / Z ) soll daran erinnern, dass der Erwartungswert definitionsgemäß von<br />

p ( t´<br />

t<br />

dem verwendeten Wahrscheinlichkeitsmaß abhängt. Die Aussagen (1) bis (5)<br />

gelten für alle zulässigen Wahrscheinlichkeitsmaße auf �*. Aussage (3) besagt,<br />

dass der Nachfolgezustand Zt´ bei gegebenem Ausgangszustand stochastisch<br />

unabhängig von allen anderen Systemvariablen Y : � � �Y ist, da Y bei<br />

gegebenem Ausgangszustand keine relevanten Zusatzinformationen mehr liefern<br />

kann. 37 (4) Aus demselben Grund ist auch der durch Zt und Y bedingte<br />

Erwartungswert von Zt´ fast überall identisch mit dem durch den Ausgangszustand<br />

allein bedingten Erwartungswert (� Steyers „strenge Kausalitätsbedingung“). (5)<br />

Schließlich ist in deterministischen Prozessen der Determinationskoeffizient<br />

2<br />

R Z / Z ) �1<br />

. Auch hier soll der Index p daran erinnern, dass der Wert des<br />

p ( t´<br />

t<br />

Determinationskoeffizienten vom verwendeten Wahrscheinlichkeitsmaß abhängig<br />

ist.<br />

Man beachte, dass aus jeder der Bedingungen (1) bis (6) auch umgekehrt gefolgert<br />

werden kann, dass es sich bei (Zt)t�T um einen deterministischen Prozess handelt.<br />

Allerdings ist dabei die Messbarkeit der Zustandsübergänge im Allgemeinen nicht<br />

garantiert, wie wir früher gesehen haben.<br />

Satz: Seien S, T, Z, �, A, wie oben und Zt(�) = �(t) für alle t � T und alle � � �.<br />

Dann gilt: Wenn (Zt)t�T irgendeine der Bedingungen (1) – (5) aus dem<br />

vorhergehenden Satz erfüllt, dann ist (Zt)t�T ein deterministischer Prozess.<br />

Der Beweis ist wieder mit den „Übersetzungsregeln“ zu führen. �<br />

Determinismus und klassisches Kausalitätsprinzip: Unter dem klassischen<br />

Kausalitätsprinzip verstehen wir die Aussage<br />

(*) Jedes Ereignis hat eine Ursache<br />

Der nachfolgende Satz zeigt, dass das Kausalitätsprinzip für alle deterministischen<br />

Systeme Gültigkeit besitzt – mit zwei kleinen Einschränkungen: Zum einen gilt<br />

die angegebene Aussage nur für „nicht-initiale“ Ereignisse. Darunter verstehen wir<br />

solche Ereignisse, die einen zeitlichen Vorgänger besitzen, d.h. ein Ereignis B ist<br />

nicht-initial genau dann, wenn es ein zeitlich vorgeordnetes Ereignis A < B gibt.<br />

Diese Einschränkung ist notwendig, weil initiale Ereignisse keine zeitlichen<br />

37 Definitionsgemäß gilt X �p Y, wenn die Variablen X und Y stochastisch unabhängig in<br />

Bezug auf das Wahrscheinlichkeitsmaß p sind. Die Schreibweise X �p Y / Z soll<br />

andeuten, dass eine durch Z bedingte stochastische Unabhängigkeit vorliegt.<br />

71


Vorgänger und deshalb auch keine Ursachen besitzen 38 . Zum anderen muss B in<br />

�* erreichbar 39 , also physikalisch möglich sein ( B � �*<br />

� �),<br />

da sonst ebenfalls<br />

keine Ursache für B existiert 40 (keine Ursache kann einen physikalisch<br />

unmöglichen Effekt verursachen).<br />

Satz: In deterministischen Systemen gilt das klassische Kausalitätsprinzip, d.h.<br />

jedes physikalisch mögliche, nicht-initiale Ereignis hat eine Ursache.<br />

Beweis: Sei S � ( Z, T,<br />

�*)<br />

ein deterministisches System und sei B ein nichtinitiales<br />

Ereignis in S. Wenn E nicht-initial ist, dann gibt es einen Zeitpunkt t* mit<br />

B � A t*<br />

� A(<br />

Zt<br />

/ t � t*)<br />

. Sei nun �0 eine beliebige Trajektorie, auf der das Ereignis<br />

B eintritt, d.h. � B.<br />

Eine solche Trajektorie existiert nach Voraussetzung (B ist<br />

� 0<br />

in �* erreichbar). Ferner sei T*=� t t � ... � t � ... � eine monoton absteigende,<br />

1 � 2 n<br />

nach unten unbeschränkte 41 Folge von Zeitpunkten mit t *<br />

betrachten nun das Ereignis<br />

�<br />

t �T<br />

*<br />

n<br />

�Z � z �<br />

t<br />

n<br />

n<br />

t n � für alle n � N. Wir<br />

A � mit z � � ( t ) für alle n � 1,<br />

2,...<br />

Das Ereignis A tritt also ein, wenn das System zu den angegebenen Zeitpunkten<br />

die Zustände z ,..., z ,...<br />

A� A , also<br />

n<br />

0 n<br />

z 1, 2 n durchläuft. Offensichtlich gilt dann t*<br />

A < B. Sei nun � eine beliebige Trajektorie aus �*. Wir behaupten: Wenn<br />

�( tn ) � �0(<br />

tn<br />

) für alle n � N gilt, dann gilt �( t) � �0(<br />

t)<br />

für alle t � T , also � � �0<br />

.<br />

Wir führen den Beweis indirekt und nehmen an, es gäbe einen Zeitpunkt t mit<br />

� ( t) � �0(<br />

t)<br />

. In diesem Fall gäbe es auch einen Zeitpunkt tn �T * mit tn � t , da T*<br />

voraussetzungsgemäß nach unten unbeschränkt ist. Nun gilt aber<br />

�( tn ) � �0(<br />

tn<br />

) � �( t) � �0(<br />

t)<br />

für alle Zeitpunkte t � tn<br />

, da S ein deterministisches<br />

System ist – im Widerspruch zur Annahme. Folglich gilt �� A � � � �0<br />

und<br />

somit auch �� A � ��<br />

Bfür<br />

alle Trajektorien � � �*, d.h. A � * B.<br />

�<br />

38 Definitionsgemäß ist A Ursache von B genau dann, wenn A < B und A � B überall in<br />

�* gilt. Alle „normalen“ Ereignisse sind natürlich nicht-initial. Es gibt jedoch einige<br />

pathologische Ausnahmen. Definitionsgemäß ist nämlich A < B genau dann, wenn es<br />

einen Zeitpunkt t gibt, so dass A messbar in t ist, aber B nicht, d.h. es gilt A� At<br />

, aber<br />

B � At<br />

. Dabei ist At � A(<br />

Zs / s � t)<br />

die kleinste Ereignisalgebra auf �, in der alle<br />

Zustände Z s mit s � t messbar sind. Insbesondere sind daher � selbst und die leere<br />

Menge initiale Ereignisse, weil � und � in jeder Algebra At enthalten sind.<br />

39 d.h. es existiert mindestens eine Trajektorie �� �*<br />

mit � � B<br />

40 Aufgrund der früher angegebenen „Varianzbedingungen“ in der Definition von


Wir nennen im Folgenden ein System S streng kausal, wenn das<br />

Kausalitätsprinzip in S gültig ist, d h. wenn jedes physikalisch mögliche, nichtinitiale<br />

Ereignis eine Ursache in S besitzt. Das angegebene Theorem besagt also,<br />

dass alle deterministischen Systeme streng kausal sind. Das folgende<br />

Gegenbeispiel zeigt, dass die Umkehrung dieser Aussage nicht allgemeingültig ist,<br />

d.h. es gib streng kausale Prozesse, die nicht deterministisch sind. Der intuitive<br />

Grund dafür liegt in dem Umstand, dass bei deterministischen Prozessen die<br />

Vorgeschichte irrelevant für das Verhalten des Systems ist, sobald man den<br />

Zustand Zt des Systems zur Zeit t kennt. Dagegen kann bei einem strikt kausalen<br />

Prozess das zukünftige Verhalten auch von der Vorgeschichte abhängig sein.<br />

Gegenbeispiel: Wir betrachten ein diskretes System, das sukzessive drei<br />

verschiedene Zustände durchlaufen kann, so dass T = � 1,2,3 � gilt. Insgesamt<br />

gebe es fünf mögliche Zustände Z = � a,b,c,d,e �, aber nur zwei mögliche Pfade<br />

durch den Zustandsraum, nämlich a � c � d und b � c � e. In diesem Fall hat<br />

jedes nicht-initiale Ereignis eine Ursache, d.h. das System ist streng kausal, aber<br />

nicht deterministisch, weil das System aus dem Zustand Z2 = c in Abhängigkeit<br />

von der Vorgeschichte sowohl in Z3 = d als auch in Z3 = e übergehen kann (es gilt<br />

also nicht Z2


Zusammenfassung: Wir wollen hier noch einmal die wichtigsten Konzepte aus<br />

diesem Kapitel übersichtlich zusammenfassen.<br />

Definition: S � ( Z , T,<br />

�*)<br />

ist ein deterministisches System, wenn es für jeden<br />

möglichen Zustand z � Z zur Zeit t und für jeden Zeitpunkt t´ > t genau einen<br />

möglichen Nachfolgezustand z´ � Z gibt, so dass gilt:<br />

Wir unterscheiden<br />

� vorwärts-deterministische,<br />

� rückwärts-deterministische und<br />

� bideterministische Systeme<br />

� � � �*: Zt(�) = z � Zt(�) = z´<br />

Beispiel: Sei S ein klassisches System mit n Freiheitsgraden und sei �* die<br />

Gesamtheit aller Trajektorien im Phasenraum, die die Hamiltonschen<br />

Bewegungsgleichungen erfüllen. Dann ist S ein vorwärts- und rückwärts-, also ein<br />

bideterministisches System.<br />

Übersetzungsregeln: Wenn (Zt)t�T ein deterministischer Prozess mit messbaren<br />

Zustandsübergängen ist, dann können wir die früher abgeleiteten<br />

Übersetzungsregeln anwenden. Insbesondere gilt für die<br />

Übergangswahrscheinlichkeiten<br />

p( Zt<br />

´ t,<br />

t´<br />

t<br />

� f ( z)<br />

/ Z � z)<br />

�1<br />

In deterministischen Systemen gilt das klassische Kausalitätsprinzip, d.h. jedes<br />

physikalisch mögliche, nicht-initiale Ereignis hat eine Ursache.<br />

74


9. Transformationen und Invarianzen<br />

Im Folgenden betrachten wir deterministische Prozesse mit Indexmenge T = R.<br />

Wir haben im letzten Kapitel gesehen, dass es für je zwei Zeitpunkte t, t´ � T mit t<br />

< t´ immer eine Funktion f : Z � Z gibt, so dass Zt´ = f(Zt) überall in �* gilt. Die<br />

Funktion f gibt zu jedem möglichen Anfangszustand zur Zeit t den zugehörigen<br />

Nachfolgezustand zur Zeit t´ an. Die Funktion beschreibt somit die<br />

Zustandsübergänge von t zu t´. Solche Funktionen werden im folgenden auch als<br />

dynamische Transformationen bezeichnet.<br />

Im Allgemeinen können die Funktionswerte f(z) von t und t´ abhängen. Wir<br />

können dies deutlich machen, indem wir f als Funktion der Randpunkte t und t´<br />

betrachten, also als eine Funktion ft,t´ : Z � Z mit den oben angegebenen<br />

Eigenschaften. In vielen Fällen hängt der Nachfolgezustand z´ zu einem<br />

gegebenen Anfangszustand z jedoch nur vom zeitlichen Abstand t´� t zwischen<br />

den zugehörigen Zeitpunkten ab, so dass ft,t´ = fs,s´ für alle Zeitpunkte s, s´ mit<br />

s � s´ = t � t´ gilt. Wir können daher die Funktionen ft,t´ durch eine Funktion<br />

ft�t´ : Z � Z ersetzen, die nur vom Abstand zwischen den betreffenden<br />

Zeitpunkten abhängig ist. Das bedeutet, dass zu jedem Zeitpunkt t � T eine<br />

Funktion ft : Z � Z gehört, so dass für alle s � T die Beziehung Zs+t = ft(Zs) gilt.<br />

Wir bezeichnen solche Prozesse als (zeitlich) translationsinvariante Prozesse:<br />

Definition: Sei (Zt)t�T ein deterministischer Prozess mit Indexmenge T = R. Dann<br />

gilt: (Zt)t�T ist translationsinvariant in �*, wenn für alle t � T eine Funktion<br />

ft: Z � Z existiert, so dass für alle s � T die Gleichung Zs+t = ft(Zs) überall in �*<br />

gilt.<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit Indexmenge T = R. Dann gilt:<br />

(Zt)t�T ist ein translationsinvarianter Prozess genau dann, wenn für alle Zeitpunkte<br />

s, t � T die Gleichung<br />

fs+t = ft � fs<br />

erfüllt ist. Dabei ist ft diejenige, nach Voraussetzung 42 eindeutig bestimmte<br />

Abbildung ft : Z � Z, die jedem Anfangszustand zur Zeit 0 den Nachfolgezustand<br />

zur Zeit t zuordnet.<br />

Beweis: Nach Voraussetzung ist Zs = fs(Z0) und Zs+t = fs+t(Z0). Folglich gilt Zs+t = ft(Zs)<br />

genau dann, wenn fs+t(Z0) = ft(Zs) = ft (fs(Z0)) = ( ft � fs<br />

)(Z0) ist. �<br />

42 Nach Voraussetzung ist (Zt)t�T ein deterministischer Prozess, d.h. es gilt Zt = ft (Z0)<br />

überall in �*.<br />

75


Beispiel 1: Sei Z = R 2n der klassische Phasenraum für ein System mit n<br />

Freiheitsgraden und sei R � R<br />

n 2<br />

H : die Hamiltonfunktion des Systems. Ferner sei<br />

�* die Gesamtheit aller Trajektorien im Phasenraum, die die Hamiltonschen<br />

Bewegungsgleichungen erfüllen und Zt(�) = �(t) für alle t � T und alle � � �.<br />

Wenn die Hamiltonfunktion keine explizite Zeitabhängigkeit aufweist, dann ist<br />

(Zt)t�T ein translationsinvarianter deterministischer Prozess mit stetigen und<br />

messbaren Zustandsübergängen in �*. Die Translationsinvarianz ergibt sich in<br />

diesem Fall aus dem Umstand, dass die Bewegungsgleichungen die Form<br />

mit<br />

�� ( t) � f ( �(<br />

t))<br />

� �H<br />

�H<br />

�<br />

f ( qi<br />

, pi<br />

) �<br />

�<br />

� , �<br />

�<br />

�<br />

� �pi<br />

�qi<br />

�<br />

aufweisen. Dabei handelt es sich um eine autonome Differentialgleichung erster<br />

Ordnung, weil die rechte Seite der Gleichung keine explizite Zeitabhängigkeit<br />

aufweist. Daraus folgt, dass die Lösungen translationsinvariant sind, d.h. es gilt<br />

für alle Zeitpunkte s, t � T. �<br />

ft� s ( Z0<br />

) � ft<br />

( Zs<br />

) � fs<br />

( Zt<br />

) .<br />

Beispiel 2: Auf analoge Weise lässt sich zeigen, dass auch die Trajektorien im<br />

Zustandsraum eines abgeschlossenen Quantensystems translationsinvariant sind.<br />

Sei dazu Z = L 2 (R 3N ) der Zustandsraum für ein N-Teilchen-Quantensystem und sei<br />

H : Z � Z der (zeitunabhängige) Hamilton-Operator des Systems. Ferner sei Zt(�)<br />

= �(t) für alle Trajektorien 43 � : T � Z.<br />

Wir schreiben � ��<br />

* wenn � die<br />

Schrödinger-Gleichung erfüllt, d.h. wenn<br />

��<br />

i� � H�<br />

�t<br />

Die Lösungen dieser Differentialgleichung sind translationsinvariant. Die<br />

entsprechenden dynamischen Transformationen sind unitäre Transformationen der<br />

Form<br />

iHt<br />

�(<br />

t ) � e �(<br />

0)<br />

43 Wir verwenden hier den Buchstaben � anstelle von �, um<br />

76


d.h. es gilt Zt � ft<br />

� Z0<br />

für alle Zeitpunkte t. Man kann leicht erkennen, dass die<br />

iH(<br />

t�<br />

s)<br />

Bedingung ft�s � ft<br />

� fs<br />

erfüllt ist, weil e � e �e<br />

iHt<br />

iHs<br />

ist. �<br />

Offenbar gilt der folgende<br />

Satz: Jeder translationsinvariante Prozess ist bideterministisch.<br />

Beweis: Sei (Zt)t�T ein translationsinvarianter deterministischer Prozess in �* und seien t,<br />

t´ beliebige Zeitpunkte mit t´ < t und sei s = t – t´. Nach Voraussetzung gibt es dann eine<br />

Funktion f-s : Z � Z so dass Zt´ = f- s(Zt) überall in �* gilt, d.h. zu jedem möglichen<br />

Zustand des Systems zur Zeit t gibt es einen eindeutig determinierten Vorgänger zur Zeit<br />

t´. Der Prozess ist also vorwärts- und rückwärts-, d.h. bideterministisch. �<br />

Transformationsgruppe: Sei nun (Zt)t�T ein translationsinvarianter Prozess und<br />

seien ft : Z � Z die dynamischen Transformationen, die jedem möglichen<br />

Anfangszustand z0 zur Zeit 0 den entsprechenden Nachfolgezustand zur Zeit t<br />

zuordnen. Die Gesamtheit der dynamischen Transformationen ft mit t � R bildet<br />

dann eine kommutative Gruppe in Bezug auf die Verknüpfung<br />

(*) ft � fs = fs+t<br />

Zum Nachweis der Gruppen-Eigenschaften genügt es zu beachten, dass ft+s = fs+t und<br />

f(t+s)+r = ft+(s+r) gilt, d.h. die Operation � ist kommutativ und assoziativ. Darüber hinaus<br />

gilt ft+0 = f0+t = ft, d.h. f0 ist ein neutrales Element. Schließlich gilt gibt es zu jeder<br />

Funktion ft ein inverses Element, nämlich f�t, weil für alle Zeitpunkte f�t � ft = ft�t = f0 gilt.<br />

Daraus folgt unmittelbar der<br />

Satz: Sei (Zt)t�T ein translationsinvarianter Prozess in �*. Dann bilden die<br />

zugehörigen dynamischen Transformationen eine kommutative Gruppe in Bezug<br />

auf die Verknüpfung ft � fs<br />

� ft�s<br />

. �<br />

Die Translationsinvarianz von physikalischen Prozessen wird auch als<br />

Homogenität der Zeit bezeichnet. Homogenität bedeutet in diesem<br />

Zusammenhang, dass die physikalischen Eigenschaften der Zeit immer gleich, also<br />

unabhängig von der Wahl eines zeitlichen Nullpunkts sind.<br />

Ein charakteristisches Merkmal von translationsinvarianten Prozessen ist die<br />

Existenz von Erhaltungsgrößen. Darunter verstehen wir Funktionen H : Z � R ,<br />

die auf jeder möglichen Trajektorie konstante Werte annehmen. Dazu definieren<br />

wir für jede Trajektorie � � � eine Funktion H � : T � R so, dass für alle<br />

Zeitpunkte t die Gleichung H�( t)<br />

� H(<br />

�(<br />

t))<br />

erfüllt ist. Wir nennen H eine<br />

Erhaltungsgröße des Systems, wenn auf allen Trajektorien ��� * die zeitliche<br />

77


Ableitung dH� / dt � 0ist,<br />

d.h. wenn H� ( t)<br />

� H�<br />

( t´)<br />

für alle Zeitpunkte<br />

t, t´<br />

�T<br />

gilt.<br />

Wir nennen zwei Zustände z, z´ � Z äquivalent und schreiben z � z´, wenn es eine<br />

Trajektorie � � �* und zwei Zeitpunkte t, t´<br />

�T<br />

gibt, so dass z � �(t)<br />

und z´ � �(<br />

t´)<br />

gilt. Mit anderen Worten: Zwei Zustände sind äquivalent, wenn sie auf derselben<br />

Trajektorie liegen. Man kann leicht zeigen, dass � tatsächlich eine<br />

Äquivalenzrelation (d.h. reflexiv, symmetrisch und transitiv) ist. 44 Wir können<br />

daher alle erreichbaren Zustände in disjunkte Äquivalenzklassen einteilen. Sei Z�<br />

= ��z� / z �Z �der zugehörige Quotientenraum und :<br />

~<br />

H Z� � R eine beliebige<br />

Abbildung vom Quotientenraum in die reellen Zahlen. Wir erhalten eine<br />

entsprechende Erhaltungsgröße H : Z � R durch die Vorschrift, dass<br />

~<br />

H( z)<br />

� H(<br />

�z�) für alle Zustände z �Z<br />

gelten soll. Tatsächlich kann man jede<br />

Erhaltungsgröße auf diese Weise definieren, weil für jede Erhaltungsgröße<br />

H : Z � R die Bedingung H( z)<br />

� H(<br />

z´)<br />

erfüllt sein muss, wenn z, z´ äquivalente<br />

Zustände sind.<br />

Beispiel: Sei R � R<br />

n 2<br />

H : die (zeitunabhängige) Hamiltonfunktion für ein<br />

klassisches System mit n Freiheitsgraden und sei �* die Gesamtheit aller<br />

Trajektorien im Phasenraum, die die Hamiltonschen Bewegungsgleichungen<br />

bezüglich H erfüllen. Dann ist H ist eine Erhaltungsgröße des Systems.<br />

Beweis: Nach Voraussetzung (keine explizite Zeitabhängigkeit) ist<br />

dH<br />

dt<br />

�<br />

n<br />

�<br />

i�1<br />

� �H<br />

�H<br />

�<br />

( t)<br />

�<br />

�<br />

� ( �(<br />

t))<br />

� q�<br />

i ( �,<br />

t)<br />

� ( �(<br />

t))<br />

� p�<br />

i ( �,<br />

t)<br />

�<br />

�<br />

� �qi<br />

�pi<br />

�<br />

auf allen Trajektorien � � �*. Aufgrund der Hamiltonschen<br />

Bewegungsgleichungen folgt daraus unmittelbar<br />

dH<br />

dt<br />

�<br />

( t)<br />

n<br />

� �<br />

i�1<br />

d.h. H ist eine Erhaltungsgröße. �<br />

� �H<br />

�H<br />

�H<br />

�H<br />

�<br />

�<br />

� ( �(<br />

t))<br />

� ( �(<br />

t))<br />

� ( �(<br />

t))<br />

� ( �(<br />

t))<br />

�<br />

� � 0<br />

� �qi<br />

�pi<br />

�pi<br />

�qi<br />

�<br />

44 Reflexivität und Symmetrie sind trivial. Um die Transitivität zu zeigen, nehmen wir an,<br />

dass z1� z 2 und z2 � z 3 ist. In diesem Fall gibt es Trajektorien �, �´� �* gibt, so dass<br />

z z �rng(<br />

�)<br />

und z z �rng(<br />

�´)<br />

gilt. In einem translationsinvarianten Prozess gilt<br />

1,<br />

2<br />

2,<br />

3<br />

aber entweder rng(�) = rng(�´) oder rng(�) � rng(�´) für alle �, �´� �* (Warum?).<br />

Daraus folgt unmittelbar, dass z �rng(<br />

�)<br />

z gilt.<br />

z 1,<br />

3 also z1� 3<br />

78


Sei nun ( Zt ) t�T<br />

ein beliebiger, translationsinvarianter Prozess mit Z = R n . Wir<br />

betrachten zwei Trajektorien �1, �2<br />

��<br />

* mit � 1( t1) � �2(<br />

t2<br />

) � z und � t � t2<br />

�t1<br />

.<br />

Das System nimmt also auf beiden Trajektorien den Zustand z an, allerdings zu<br />

unterschiedlichen Zeitpunkten. Aus der Translationsinvarianz folgt dann, dass<br />

� 2(<br />

t � �t)<br />

� �1(<br />

t)<br />

für alle Zeitpunkte t gilt, d.h. die beiden Trajektorien<br />

unterscheiden sich nur durch eine konstante Translation des zeitlichen Nullpunkts.<br />

Wenn alle Trajektorien in �* stetig und differenzierbar sind, dann gilt für die<br />

zeitlichen Ableitungen die Gleichung �� t) � ��<br />

( t � �t)<br />

. Wir können daher ein<br />

n<br />

n<br />

1(<br />

2<br />

Vektorfeld v : R � R definieren, so dass v( z)<br />

� ��<br />

( t)<br />

für alle Trajektorien<br />

��� * und alle Zeitpunkte t �T mit � ( t) � z gilt. Jede Trajektorie durch z ist also<br />

eine mögliche Lösung der Differentialgleichung<br />

�� ( t) � v(<br />

�(<br />

t))<br />

Die dynamische Transformationsgruppe ( ft ) t�T<br />

repräsentiert dabei den zum<br />

Vektorfeld v gehörigen Fluss, d.h. es gilt ft ( z)<br />

� �(<br />

t)<br />

für jede Lösung � � �* mit<br />

� ( 0)<br />

� z . Das Vektorfeld v gibt dabei die Geschwindigkeit der Zustandsänderung<br />

in jedem Punkt des Zustandsraums an. Die Translationsinvarianz des Systems hat<br />

zur Folge, dass diese Geschwindigkeit unabhängig von der gewählten Trajektorie<br />

ist. Die rechte Seite der Differentialgleichung hängt nur implizit, nicht explizit von<br />

der Variablen t ab. Man spricht in diesem Fall von einer autonomen<br />

Differentialgleichung bzw. von einem autonomen Prozess:<br />

Satz: Sei ( Zt ) t�T<br />

ein beliebiger, translationsinvarianter Prozess mit stetigen und<br />

differenzierbaren Zustandsänderungen im Zustandsraum Z = R n . Dann ist<br />

( Zt ) t�T<br />

ein autonomer Prozess. �<br />

Wir betrachten nun ein zusammenhängendes Gebiet R vom Volumen V im<br />

Zustandsraum. Nach dem Integraltheorem von Gauß ist der (Netto-) Fluss durch<br />

die Oberfläche des Gebiets gleich dem Volumenintegral über die Divergenz des<br />

Vektorfelds v, d.h.es gilt<br />

� v � dA � �<br />

�V<br />

V<br />

div v � dV<br />

Dabei ist dA ein infinitesimaler Vektor, der an jeder Stelle senkrecht zur<br />

Oberfläche des Raumgebiets R orientiert ist und dessen Betrag der Größe eines<br />

infinitesimalen Flächenelements entspricht. Definitionsgemäß ist die Divergenz<br />

79


eines n-dimensionalen Vektorfelds v(z) mit z � ( z1,...,<br />

zn<br />

) gegeben durch den<br />

Ausdruck<br />

div v �<br />

n �vi<br />

�<br />

i�1<br />

�xi<br />

Wenn die Divergenz gleich Null ist, verschwindet auch der Fluss durch die<br />

Oberfläche, d.h. der Abfluss wird durch den Zufluss gerade kompensiert. Systeme<br />

mit dieser Eigenschaft ( div v � 0)<br />

werden im Folgenden als konservative<br />

Systeme bezeichnet, Systeme mit negativer Divergenz werden als dissipative<br />

Systeme bezeichnet. Aus physikalischer Sicht sind konservative Systeme durch<br />

eine konstante Energie charakterisiert, wie aus dem folgenden Beispiel deutlich<br />

wird:<br />

Beispiel: Sei wieder Z = R 2n der klassische Phasenraum für ein System mit n<br />

Freiheitsgraden und sei R � R<br />

n 2<br />

H : die Hamiltonfunktion des Systems. Dann gilt<br />

�H<br />

�H<br />

q�<br />

i ( �,<br />

t)<br />

� ( �,<br />

t)<br />

und p�<br />

i ( �,<br />

t)<br />

� � ( �,<br />

t)<br />

�p<br />

�q<br />

i<br />

für alle Trajektorien � � �*. 45 Wenn die Hamiltonfunktion nicht explizit von der<br />

Zeit abhängt, dann folgt für die Divergenz des (zeitunabhängigen!) Vektorfelds<br />

( q ( �, t),<br />

p ( �,<br />

t))<br />

� ( q�<br />

( �,<br />

t),<br />

p�<br />

( �,<br />

t))<br />

die Gleichung<br />

v i i<br />

i i<br />

n ��q�<br />

� � n<br />

i p�<br />

i � �<br />

div v � ��<br />

� � � ��<br />

i�1 ��qi<br />

�pi<br />

� �1<br />

��q<br />

i<br />

�H<br />

� �H<br />

�<br />

� � � 0<br />

�pi<br />

�pi<br />

�q<br />

�<br />

i i<br />

i<br />

Offenbar ist dann ( Zt ) t�T<br />

ein autonomer Prozess und das zugrundeliegende<br />

physikalische System ist konservativ. �<br />

Anmerkung: In Analogie zur zeitlichen Translationsinvarianz lässt sich für<br />

Prozesse mit Z = R n auch eine räumliche Translationsinvarianz definieren.<br />

Räumliche Translationsinvarianz bedeutet, dass für jede mögliche Verschiebung<br />

(„Translation“) c � R n der Anfangsbedingungen die Gleichung f(Zt + c) = f(Zt) + c<br />

erfüllt ist. Dabei ist f: R n � R n die (im Allgemeinen von t und t´ abhängige)<br />

Funktion, die jeder möglichen Anfangsbedingung zur Zeit t den entsprechenden<br />

45 Dabei ist H( �, t)<br />

� H(<br />

�(<br />

t))<br />

und �* die Gesamtheit aller Trajektorien im Phasenraum,<br />

die die Hamiltonschen Bewegungsgleichungen bezüglich der angegebenen<br />

Hamiltonfunktion erfüllen.<br />

80


Nachfolgezustand zur Zeit t´ zuordnet und Zt + c ist die Zufallsvariable, die jedem<br />

möglichen Pfad � � � den Wert (Zt + c)(�) = Zt(�) + c zuordnet.<br />

Der Begriff der „räumlichen“ Translationsinvarianz ist hier allerdings mit Vorsicht<br />

zu gebrauchen: Er bezieht sich nämlich auf den Zustandsraum und nicht auf den<br />

gewöhnlichen physikalischen Raum, in dem sich Teilchen oder Felder bewegen.<br />

Im Fall der klassischen Physik ist der Zustandsraum der 2n-dimensionale<br />

Phasenraum der kanonischen Orts- und Impulskoordinaten. Zustandsübergänge im<br />

klassischen Phasenraum sind unter der Annahme von kartesischen Koordinaten<br />

invariant unter Translationen der räumlichen Koordinaten, falls keine äußeren<br />

Kräfte auf das System wirken 46 . Unter dieser Voraussetzung gilt f(Zt + c) = f(Zt) +<br />

c für jede Verschiebung der Form<br />

c = � c1,..., cn, 0,..., 0 �<br />

Dabei bleiben die Impulskoordinaten also unverändert. In der Physik hängt die<br />

räumliche Translationsinvarianz mit dem Impulserhaltungssatz zusammen,<br />

während die zeitliche Translationsinvarianz aus der Energieerhaltung folgt.<br />

In Analogie zur zeitlichen Translationsinvarianz wird die räumliche<br />

Translationsinvarianz auch als Homogenität des Raums bezeichnet. Eine weitere<br />

grundlegende Eigenschaft ist die Isotropie. Isotropie bedeutet, dass alle<br />

Raumrichtungen physikalisch gleichwertig sind. Genauer ausgedrückt: Wenn<br />

A: R n � R n eine orthogonale Transformation (eine räumliche Drehung) des<br />

Bezugssystems repräsentiert, dann gilt (f � A)(Zt) = (A � f)(Zt). Dabei ist f : R n �<br />

R n wieder die Funktion, die jeder möglichen Anfangsbedingung zur Zeit t den<br />

entsprechenden Nachfolgezustand zur Zeit t´ zuordnet. Aus der Isotropie des<br />

Raums ergibt sich ein Erhaltungssatz für den Gesamt-Drehimpuls des Systems 47 .<br />

Die folgende Tabelle fasst noch einmal die wichtigsten Invarianzen und die<br />

entsprechenden Erhaltungssätze zusammen:<br />

46 Damit ist gemeint, dass die potentielle Energie V( r1,..., rN<br />

) nur vom räumlichen<br />

Abstand zwischen den Teilchen abhängt; dieser Abstand bleibt aber bei Translationen<br />

unverändert. In diesem Fall gilt für die Hamiltonfunktion H( rk , pk ) � H(<br />

rk � d, pk<br />

),<br />

weil die kinetische Energie nur von den Impulskoordinaten abhängt. Dabei sind rk, pk der<br />

Orts- bzw. Impulsvektor von Teilchen k und d ist ein (Translations-) Vektor, der den<br />

Betrag und die Richtung der räumlichen Verschiebung angibt.<br />

47 vgl. L. D. Landau, E. M. Lifschitz 1987, Band I, Kapitel II, § 9<br />

81


Invarianzen<br />

Zeitliche Translationen<br />

Räumliche Translationen<br />

Rotationen (= orthogonale<br />

Transformationen)<br />

Raum und Zeit<br />

Homogenität der Zeit<br />

Homogenität des Raums<br />

Isotropie des Raums<br />

Erhaltungssätze<br />

Energieerhaltung<br />

Impulserhaltung<br />

Drehimpulserhaltung<br />

Es gibt noch weitere Invarianzen in der klassischen Physik, zum Beispiel die<br />

Galilei-Invarianz, die mit der Erhaltung des Massenschwerpunkts zusammenhängt.<br />

Nach einem bekannten Theorem von E. Noether hängen alle Invarianzen mit<br />

entsprechenden Erhaltungssätzen zusammen. Eine ausführlichere Behandlung<br />

dieser Thematik muss auf die entsprechende Fachliteratur verwiesen werden.<br />

Periodische Prozesse: Ein deterministischer Prozess mit Indexmenge T = R wird<br />

als periodischer Prozess bezeichnet, wenn es für jeden physikalisch möglichen<br />

Pfad � � �* eine „Periode“ � � R+ gibt, so dass für alle Zeitpunkte t � T die<br />

Gleichung Zt+�(�) = Zt(�) gilt. Mit � �1<br />

/ � bezeichnen wir die entsprechende<br />

Frequenz.<br />

Wir wollen im folgenden einen Pfad � � � als periodischen Pfad bezeichnen,<br />

wenn � die Periodizitätsbedingung Zt+�(�) = Zt(�) für alle t � T erfüllt. Offenbar<br />

ist also (Zt)t�T ein periodischer Prozess, wenn alle physikalisch zulässigen Pfade �<br />

� �* die Periodizitätsbedingung erfüllen. Im Gegensatz dazu nennen wir einen<br />

Pfad wiederholungsfrei, wenn es keine Zeitpunkte t, t´ � T gibt, so dass Zt´(�) =<br />

Zt(�) gilt. Man kann leicht erkennen, dass bei translationsinvarianten Prozessen<br />

nur periodische und wiederholungsfreie Pfade möglich sind, d.h: Wenn in einem<br />

translationsinvarianten Prozess irgendein Zustand z zweimal auftritt, so dass Zt´(�)<br />

= Zt(�) gilt, dann muss derselbe Zustand in periodischen Abständen immer wieder<br />

auftreten:<br />

Satz: Sei (Zt)t�T ein translationsinvarianter deterministischer Prozess in �*. Dann<br />

sind alle Pfade � � �* entweder periodisch oder wiederholungsfrei.<br />

Beweis: Sei � � �* ein physikalisch zulässiger Pfad mit Zt´(�) = Zt(�) und sei � = t´� t ><br />

0 und z0 = Z0(�). Dann muss wegen der Translationsinvarianz für jeden beliebigen<br />

Zeitpunkt s die Periodizitätsbedingung fs�� ( z0<br />

) = ( f� � fs )( z0<br />

) = ( ft��t fs )( z ) � 0 =<br />

( ft� � f�t � fs )( z0<br />

) =( ft � f�t � fs )( z0<br />

) = fs ( z0<br />

) erfüllt sein. Folglich kehrt das System<br />

periodisch (mit der Periode � = t´� t) in seinen jeweiligen Ausgangszustand zurück. �<br />

82


Beispiel: Ein bekanntes Beispiel sind die Lösungen des Zwei-Körper-Problems<br />

in der klassischen Mechanik. Dabei geht es um die Bewegung von zwei Körpern,<br />

die sich nur unter dem Einfluss der gegenseitigen Schwerkraft bewegen (zum<br />

Beispiel ein Doppelstern-System). Als mögliche Bahnen kommen nur<br />

Kegelschnitte in Frage, also Ellipsen, Parabeln oder Hyperbeln. Im gebundenen<br />

Zustand (elliptische Umlaufbahnen) kehrt das System periodisch in seinen<br />

Ausgangszustand zurück. Dagegen sind die Pfade in den beiden anderen Fällen<br />

wiederholungsfrei, d.h. das System kehrt nie wieder in denselben Zustand zurück.<br />

Reversible Prozesse: Ein wesentliches Merkmal der klassischen Physik besteht in<br />

dem Umstand, dass die Bewegungsgleichungen der klassischen Mechanik<br />

zeitreversibel sind. Damit ist gemeint, dass beim Übergang von t zu – t die<br />

Bewegungsgleichungen unverändert bleiben:<br />

„Mit anderen Worten, wenn in einem System irgendeine Bewegung möglich ist, so ist<br />

stets auch die entgegengesetzte Bewegung möglich, d.h. eine solche, bei der das System<br />

dieselben Zustände in umgekehrter Reihenfolge durchläuft. In diesem Sinne sind alle<br />

Bewegungen, die nach den Gesetzen der klassischen Mechanik verlaufen, reversibel.“<br />

(Landau/Lifschitz 1987, S.11)<br />

Diese Behauptung ist aber mit Vorsicht zu betrachten: Tatsächlich sind die<br />

Zustandsübergänge in der klassischen Mechanik nur in Bezug auf die<br />

Ortskoordinaten reversibel, d.h. es gibt einen möglichen Pfad durch den<br />

Zustandsraum, bei dem das System alle räumlichen Konfigurationen der Teilchen<br />

in umgekehrter Reihenfolge durchläuft. Dabei muss aber das Vorzeichen der<br />

Geschwindigkeits- und damit auch der Impulsvektoren umgekehrt werden, weil<br />

die Teilchen sich jetzt in entgegengesetzter Richtung bewegen.<br />

Zum Beweis betrachten wir ein physikalisches System mit der Hamiltonfunktion<br />

H � f ( q1,..., qn, p1 ,..., pn<br />

) . Zu jedem Pfad � � � definieren wir einen inversen Pfad �*<br />

durch die Vorschrift qi( �*, t) � qi( �,<br />

� t)<br />

und pi( �*, t) � �pi ( �,<br />

� t)<br />

. Dann gilt für die<br />

zeitlichen Ableitungen q� i( �*, t) � �q� i(<br />

�,<br />

�t) und p� i( �*, t) � p� i(<br />

�,<br />

� t)<br />

. Wir müssen<br />

zeigen, dass mit � auch �* die Bewegungsgleichungen erfüllt, d.h. dass �* � �* gilt,<br />

wenn � � �* gilt. Definitionsgemäß gilt für die Hamiltonfunktion die Gleichung<br />

H( �*, t) � f ( qi( �*, t), pi( �*, t)) � f ( qi( �, �t), �pi ( �,<br />

� t))<br />

Wenn � die Hamiltonschen Bewegungsgleichungen erfüllt, dann ist<br />

�<br />

� �<br />

H �H<br />

( *, t)<br />

� � ( �, �t) � �q� � �<br />

pi �p i( , �t) � � q� i( *, t)<br />

und<br />

i<br />

83


�<br />

� �<br />

H �H<br />

( *, t)<br />

� ( �, �t) � � p� i( �, �t) � � p� i(<br />

�*,<br />

t)<br />

q �q i i<br />

Die beiden mittleren Gleichungen ergeben sich jeweils aus der Annahme, dass � die<br />

Bewegungsgleichungen erfüllt. Die restlichen Übergänge folgen aus der Definition von<br />

�*. �<br />

Allgemein gilt die folgende<br />

Definition: Ein deterministischer Prozess (Zt)t�T mit Indexmenge T = R wird als<br />

reversibler Prozess in �* bezeichnet, wenn es zu jedem Pfad � � �* einen<br />

„inversen Pfad“ �* � �* gibt, so dass �* ( t) � �(<br />

�t)<br />

für alle t � T gilt.<br />

Man beachte jedoch, dass es sich in diesem Fall nicht um einen Prozess in<br />

kanonischer Form handeln kann, d.h. es kann nicht Zt ( �) � �(<br />

t)<br />

gelten, da sonst<br />

wegen Z0 ( �) � Z0<br />

( �*)<br />

auch Z t ( �) � Zt<br />

( �*)<br />

also �( t) � �*<br />

( t)<br />

für alle Zeitpunkte<br />

t > 0 gelten müsste. Diese Bedingung ist nur erfüllbar, wenn �( t) � �(<br />

�t)<br />

für alle<br />

Zeitpunkte t gilt, d.h. wenn Zt ( �) � const.<br />

auf allen Trajektorien ��� * gilt, so<br />

dass überhaupt keine Zustandsänderung stattfinden kann.<br />

Beispiel: Die vorhergehenden Überlegungen zeigen, dass Zustandsübergänge in<br />

der Hamiltonschen Mechanik nicht im strengen Sinn reversibel sind, weil die<br />

Reversibilität der Zustandsübergänge in der klassischen Mechanik sich nur auf die<br />

Ortskoordinaten bezieht. Dagegen sind Zustandsübergänge in der Lagrange-<br />

Mechanik reversibel, weil die räumlichen Konfigurationen stets auch in<br />

n<br />

umgekehrter Richtung durchlaufen werden können. In diesem Fall ist Z � R ,<br />

aber Zt ( �) � ( �(<br />

t),<br />

��<br />

( t))<br />

� ( qi<br />

( �,<br />

t),<br />

q�<br />

i ( �,<br />

t))<br />

, d.h. ( Zt ) t�T<br />

ist ein deterministischer<br />

Prozess, aber nicht in kanonischer Form. Auf dem inversen Pfad gilt dabei<br />

( �*) � ( �(<br />

�t),<br />

���<br />

( �t))<br />

� ( q ( �,<br />

�t),<br />

�q�<br />

( �,<br />

�t))<br />

. �<br />

Zt i<br />

i<br />

Die Reversibilität von physikalischen Vorgängen wird auch als Isotropie der Zeit<br />

bezeichnet. Damit ist gemeint, dass beide Zeitrichtungen (Vergangenheit und<br />

Zukunft) physikalisch äquivalent sind. Im Gegensatz dazu besteht in der<br />

statistischen Mechanik bzw. Thermodynamik eine Asymmetrie zwischen Zukunft<br />

und Vergangenheit, weil nach dem Zweiten Hauptsatz der Thermodynamik die<br />

Entropie eines physikalischen Systems im Zeitablauf nur zunehmen kann 48 .<br />

48 Für eine Diskussion der damit zusammenhängen Fragen aus wissenschaftstheoretischer<br />

Perspektive vgl. G. Ernst: Die Zunahme der Entropie. Eine Fallstudie zum Problem<br />

nomologischer Reduktion, Paderborn 2003<br />

84


Zusammenfassung:<br />

� Dynamische Transformationen ft : Z � Z beschreiben die Zustandsübergänge<br />

eines deterministischen Systems, d.h. es gilt Zt � ft<br />

� Z0<br />

für alle<br />

Zeitpunkte t.<br />

� In translationsinvarianten Systemen gilt ft� s � ft<br />

� fs<br />

für alle Zeitpunkte s<br />

und t. Die dynamischen Transformationen bilden dann eine kommutative<br />

Gruppe.<br />

� Die Eigenschaft der Translationsinvarianz wird auch als Homogenität der<br />

Zeit bezeichnet, weil die physikalischen Eigenschaften der Zeit invariant unter<br />

Verschiebungen (Translationen) der Zeitskala sind.<br />

� Ein charakteristisches Merkmal von translationsinvarianten Systemen ist die<br />

Existenz von Erhaltungsgrößen. Ein prominentes Beispiel ist der<br />

Energieerhaltungssatz in der Physik.<br />

� Die Trajektorien von translationsinvarianten Systemen mit Z = R n sind die<br />

Lösungen von autonomen Differentialgleichungen der Form �� ( t) � v(<br />

�(<br />

t))<br />

.<br />

Dabei ist v : Z � Z ein zeitunabhängiges Vektorfeld, das die Geschwindigkeit<br />

der Zustandsänderung in jedem Punkt des Zustandsraums definiert (�<br />

autonome Systeme).<br />

� Autonome Systeme heißen konservativ, wenn die Divergenz des Vektorfelds<br />

überall gleich Null ist. In diesem Fall verschwindet der (Netto-) Fluss durch<br />

jede geschlossene Oberfläche im Zustandsraum des Systems.<br />

� Translationsinvariante Prozesse sind entweder periodisch oder<br />

wiederholungsfrei, d.h. das System kehrt nie in denselben Zustand zurück.<br />

� Zustandsübergänge eines physikalischen Systems sind reversibel, wenn zu<br />

jedem möglichen Pfad � � �* ein „inverser“ Pfad existiert, bei dem die<br />

Zustände in umgekehrter Reihenfolge durchlaufen werden. Reversibilität wird<br />

auch als Isotropie der Zeit bezeichnet, weil bei reversiblen Prozessen beide<br />

Zeitrichtungen physikalisch gleichwertig sind.<br />

� Zustandsübergänge in der klassischen Mechanik sind darüberhinaus auch<br />

invariant unter räumlichen Translationen und Rotationen des Bezugssystems<br />

(� Homogenität und Isotropie des Raums).<br />

85


10. Stochastische Prozesse und die Markoff-Eigenschaft<br />

In vielen Fällen hat man es mit deterministischen Prozessen zu tun, deren<br />

Anfangsbedingungen nicht genau bekannt sind. Unter diesen Umständen lassen<br />

sich aus den Bewegungsgleichungen natürlich keine präzisen Vorhersagen über<br />

das zukünftige Verhalten des Systems ableiten. Wenn jedoch eine<br />

Wahrscheinlichkeitsverteilung für die möglichen Anfangsbedingungen bekannt ist,<br />

dann kann mithilfe der Bewegungsgleichungen die Wahrscheinlichkeit für alle<br />

nachfolgenden Systemzustände bestimmt werden. In einer solchen Situation<br />

werden wir von „stochastischem Determinismus“ sprechen. Ein stochastischdeterministischer<br />

Prozess ist also nichts anderes als ein deterministischer Prozess<br />

zusammen mit einer Wahrscheinlichkeitsverteilung für die möglichen<br />

Anfangsbedingungen.<br />

An die Stelle des klassischen Schemas (Bewegungsgleichungen +<br />

Anfangsbedingungen � eindeutige Lösungen) tritt jetzt folgendes Schema:<br />

(1) Bewegungsgleichungen<br />

(2) Wahrscheinlichkeitsverteilung für die Anfangsbedingungen<br />

____________________________________________________<br />

(3) Wahrscheinlichkeitsverteilung für die möglichen Lösungen<br />

Dieses Schema ist von grundlegender Bedeutung für das Verständnis der<br />

statistischen Mechanik, wie wir später noch sehen werden. Wir illustrieren den<br />

Grundgedanken zunächst durch einige einfache Beispiele und analysieren<br />

anschließend die mathematischen Eigenschaften von stochastischdeterministischen<br />

Prozessen in allgemeiner Form.<br />

Beispiel 1: Freies Teilchen mit normalverteilter Startposition. Wir betrachten eine<br />

freies Teilchen, das sich nur in einer Dimension (zum Beispiel parallel zur x-<br />

Achse eines kartesischen Koordinatensystems) bewegen kann. Sei x0 = x(0) die<br />

Startposition des Teilchens zur Zeit t = 0. Mit v0 = �x (0) bezeichnen wir die<br />

Geschwindigkeit des Teilchens zu t = 0. Für ein kräftefreies Teilchen gilt ��x (t) = 0<br />

für alle t > 0, d.h. das Teilchen wird nicht beschleunigt. Somit ist die<br />

Geschwindigkeit �x (t) = v0 = const. und x(t) = x0 + v0 t für alle t > 0, d.h. Position<br />

und Geschwindigkeit des Teilchens zu allen nachfolgenden Zeitpunkten sind<br />

eindeutig und vollständig durch die „Anfangsbedingungen“ x0 und v0 determiniert.<br />

86


Wir wollen nun annehmen, dass nur die<br />

Geschwindigkeit v0 bekannt ist.<br />

Dagegen sei für die Startposition nur<br />

eine Wahrscheinlichkeitsverteilung<br />

gegeben. Wir wollen annehmen, dass<br />

die möglichen Startpositionen<br />

normalverteilt sind mit dem Mittelwert<br />

0 und einer Varianz � 2 , so dass<br />

x0 ~ N(0,� 2 ) gilt.<br />

Die Wahrscheinlichkeit, dass das Teilchen zum Beispiel in einer Position x0<br />

zwischen a = 1 und b = 2 startet, entspricht dann genau der schraffierten Fläche<br />

unter der Glockenkurve. Unter den angegebenen Voraussetzungen ist x(t) =<br />

x0 + v0 t ~ N(v0 t, � 2 ), d.h. die Position des Teilchens zur Zeit t ist normalverteilt<br />

mit dem (zeitabhängigen)<br />

Erwartungswert v0 t und der<br />

(gleichbleibenden) Varianz � 2 . Wir<br />

können diese Situation anschaulich<br />

darstellen durch eine Gaußsche<br />

Glockenkurve, die sich mit der<br />

konstanten Geschwindigkeit v0 entlang<br />

der x-Achse nach rechts oder links<br />

bewegt ohne dabei ihre Form zu<br />

verändern.<br />

Beispiel 2: Wir wollen nun annehmen, dass anstelle der Geschwindigkeit jetzt die<br />

Startposition x0 = 0 bekannt ist. Dagegen sei für die Startgeschwindigkeit v0 nur<br />

eine Wahrscheinlichkeitsverteilung, z.B. v0 ~ N(0,� 2 ) gegeben. Das bedeutet unter<br />

anderem, dass sich das Teilchen mit 50 % Wahrscheinlichkeit nach links (v0 < 0)<br />

oder nach rechts (v0 > 0) bewegen kann. Unter den angegebenen Voraussetzungen<br />

gilt x(t) = x0 + v0 t ~ N(0, � 2 t 2 ), d.h. die Position des Teilchens zur Zeit t ist<br />

normalverteilt mit dem gleichbleibenden Mittelwert 0 und einer zeitabhängigen<br />

Varianz � 2 t 2 :<br />

87


88<br />

Das bedeutet, dass die Varianz<br />

quadratisch mit der Zeit wächst. Das<br />

entspricht anschaulich einer<br />

Glockenkurve, die immer flacher und<br />

zugleich immer breiter wird (die<br />

Verteilung „zerfließt“. Im Limes t � �<br />

ist das Teilchen mit gleicher<br />

Wahrscheinlichkeit über den ganzen<br />

Raum „verteilt“.)<br />

Der zuletzt beschriebene Effekt ist aus der Quantenphysik als das „Zerfließen des<br />

Wellenpakets“ bekannt. Das vorhergehende Beispiel zeigt, dass derselbe Effekt<br />

auch im Rahmen der klassischen Physik erzeugt werden kann. Das „Zerfließen des<br />

Wellenpakets“ muss also nicht zwangsläufig als Ausdruck eines Welle-Teilchen-<br />

Dualismus gedeutet werden.<br />

Für den Rest dieses Kapitels sei<br />

Z: eine Menge von möglichen Zuständen (der Zustandsraum des Systems)<br />

B: eine �-Algebra auf Z<br />

T: eine linear geordnete Menge von Zeitpunkten;<br />

(Wir schreiben wieder t < t´ für: t ist früher als t´).<br />

� = �t�T Z: die Gesamtheit aller möglichen Pfade durch den Zustandsraum,<br />

A = �t�T B: die kleinste Ereignisalgebra auf �, in der alle Ereignisse EB,t =<br />

� � � � / �(t) � B � mit t � T und B � B enthalten sind.<br />

(Zt)t�T: eine Familie von A-B-messbaren Observablen Zt: � � Z. Im kanonischen<br />

Fall ist Zt(�) = �(t). Wir interpretieren wieder Zt als den Zustand des<br />

Systems zum Zeitpunkt t.<br />

Sei ferner p: A � R ein beliebiges Wahrscheinlichkeitsmaß auf (�, A). Dann ist<br />

(�, A, p, (Zt)t�T) ein stochastischer Prozess mit Zustandsraum (Z, B).<br />

Unser besonderes Interesse gilt im folgenden solchen Situationen, bei denen (Zt)t�T<br />

zugleich ein deterministischer Prozess ist.<br />

Definition: Ein stochastischer Prozess (�, A, p, (Zt)t�T) mit Zustandsraum (Z, B)<br />

besitzt die elementare Markoff-Eigenschaft genau dann, wenn für alle Zeitpunkte<br />

s < t und alle B � B gilt:


p� Zt � B / As � = p� Zt � B / Zs � (p-fast überall)<br />

Dabei ist As := A(Zs : s � t) wieder die kleinste Ereignisalgebra auf �, in der alle<br />

Variablen Zs mit s � t messbar sind. (Zur Erinnerung: Wir interpretieren As als die<br />

Algebra aller Ereignisse, die bis zum Zeitpunkt s einschließlich stattgefunden<br />

haben).<br />

Die elementare Markoff-Eigenschaft besagt, dass die Information über den<br />

Zustand des Systems zur Zeit s gleichwertig ist mit der Information über die<br />

gesamte Vorgeschichte bis einschließlich s: Die Wahrscheinlichkeit, dass sich das<br />

System zu einer Zeit t > s in einem Zustand Zt � B befindet, falls der<br />

Ausgangszustand zur Zeit s gegeben ist, ist genauso groß wie die<br />

Wahrscheinlichkeit für dasselbe Ereignis bei gegebener Vorgeschichte bis zur Zeit<br />

s. Wir können daher auch sagen, dass bei einem Markoff-Prozess die<br />

Übergangswahrscheinlichkeiten unabhängig von der Vorgeschichte sind.<br />

Beispiel: Ein bekanntes Beispiel ist die Brownsche Molekülbewegung. 49 Die<br />

Wahrscheinlichkeit, ein irrfahrendes Teilchen zur Zeit t in einem Bereich B zu finden ist<br />

bei gegebener Startposition unabhängig von der Vorgeschichte, also den vorhergehenden<br />

Teilchenbewegungen.<br />

Der nachfolgende Satz zeigt, dass jeder deterministische Prozess mit messbaren<br />

Zustandsübergängen die elementare Markoff-Eigenschaft besitzt, sofern p ein<br />

zulässiges Wahrscheinlichkeitsmaß ist. Das ist intuitiv einleuchtend, weil die<br />

Nachfolgezustände Zt durch die Anfangsbedingung Zs bereits eindeutig festgelegt<br />

sind.<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit messbaren Zustandsübergängen<br />

in �* und p ein zulässiges Wahrscheinlichkeitsmaß auf A. Dann besitzt<br />

(�, A, p, (Zt)t�T) die elementare Markoff-Eigenschaft.<br />

Beweis: Sei (Zt)t�T ein deterministischer Prozess mit messbaren Zustandsübergängen in<br />

�* und p ein zulässiges Wahrscheinlichkeitsmaß. Ferner seien s, t � T mit s < t. Nach<br />

Voraussetzung gibt es dann eine messbare Funktion f : Z � Z, so dass Zt = f(Zs) überall<br />

in �* gilt. Unter diesen Annahmen gilt p-fast überall<br />

p� Zt � B / Zs � = E (1�Z t � B� / Zs) nach Definition der Zs-bedingten Wahrscheinlichkeit<br />

= E (1�f(Z s ) � B� / Zs) weil Zt = f(Zs) überall in �* gilt<br />

= 1�f(Z s ) � B� nach Anhang 4.2 (2), weil f(Zs) messbar in A(Zs) ist<br />

= 1�Z t � B� weil Zt = f(Zs) überall in �* gilt<br />

49 vgl. dazu H. Bauer 1978, S. 361 ff.<br />

89


Auf dieselbe Weise zeigt man, dass p� Zt � B / As � = 1�Z t � B� p-fast überall gilt. Somit ist<br />

fast überall p� Zt � B / Zs � = 1�Z t � B� = p� Zt � B / As �, w.z.b.w. �<br />

Als unmittelbare Folgerung aus dem eben bewiesenen Satz ergibt sich<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit messbaren Zustandsübergängen<br />

in �* und p ein zulässiges Wahrscheinlichkeitsmaß auf A. Dann gilt<br />

p� Zt � B / Zs 1 ,…, Zs n � = p� Zt � B / Zs n � (p-fast überall)<br />

für alle B � B und alle Zeitpunkte s1,…,sn, t � T mit s1 < … < sn < t.<br />

Der Beweis ergibt sich unmittelbar aus dem vorhergehenden Satz in Verbindung mit<br />

Bauer, Lemma 65.2.<br />

Im folgenden richten wir unser Augenmerk auf deterministische Prozesse mit<br />

Indexmenge T = R�0. Solche Prozesse besitzen einen ausgezeichneten<br />

Anfangszeitpunkt, nämlich t = 0. Dementsprechend bezeichnen wir Z0 als den<br />

Anfangszustand des Prozesses. Wenn (Zt)t�T ein deterministischer Prozess mit<br />

messbaren Zustandsübergängen ist, dann gibt es für jedes t � R�0 eine messbare<br />

Funktion ft: Z � Z, so dass Zt = ft(Z0) überall in �* gilt. Die Funktion ft ordnet<br />

jedem möglichen Anfangszustand zur Zeit 0 den zugehörigen Nachfolgezustand<br />

zur Zeit t zu. Wir definieren damit eine Familie von Funktionen<br />

Pt: Z � B � R<br />

durch folgende Vorschrift: Für alle z � Z und alle B � B sei<br />

Dann gilt der folgende<br />

P ( z, B)<br />

t<br />

= 1, falls<br />

� ft ( z) �B<br />

�<br />

�0,<br />

falls ft ( z) �B<br />

Satz: Sei T = R�0 und (Zt)t�T ein deterministischer Prozess mit messbaren<br />

Zustandsübergängen ft: Z � Z in �*. Dann ist jede Funktion Pt mit t � R�0 ein<br />

Erwartungskern 50 auf (�, A). Damit ist gemeint, dass für jedes Pt die folgenden<br />

Aussagen gelten:<br />

50 Zum Begriff des Erwartungskerns vgl. H. Bauer 1978, Kap. X § 56<br />

90


(1) Die Funktion z �� Pt(z,B) ist B-messbar (für alle B � B)<br />

(2) Die Funktion B �� Pt(z,B) ist ein Wahrscheinlichkeitsmaß (für alle z � Z)<br />

Beweis: (1) Sei B � B beliebig. Wir definieren eine Funktion g: Z � R so dass für alle<br />

z � Z gilt: g(z) = Pt(z,B). Um zu zeigen, dass die Funktion g B-messbar ist, müssen wir<br />

nachweisen, dass das Urbild jeder Borelmenge A � B(R) eine messbare Menge in B ist.<br />

Dieser Nachweis lässt sich durch eine einfache Fallunterscheidung führen, da die<br />

Funktion g definitionsgemäß nur die Werte 0 oder 1 annehmen kann:<br />

1. Fall: Wenn 0 und 1 in A sind, dann ist g -1 (A) = Z � B.<br />

2. Fall:Wenn weder 0 noch 1 in A ist, dann ist g -1 (A) = � � B.<br />

3. Fall: Wenn 1 � A, aber 0 � A ist, dann ist g -1 (A) = � z � Z / g(z) = 1� =<br />

� z � Z / Pt(z,B) = 1� = � z � Z / ft(z) � B � = ft -1 (B) � B.<br />

4. Fall: Wenn 0 � A, aber 1 � A ist, dann ist g -1 (A) = � z � Z / g(z) = 0 � =<br />

� z � Z / Pt(z,B) = 0 � = � z � Z / ft(z) � B � = ft -1 (B*) � B.<br />

(2) Sei nun z � Z beliebig und �: Z � R eine Funktion mit �(B) = Pt(z,B) für alle<br />

B � B. Wir müssen zeigen, dass � ein Wahrscheinlichkeitsmaß auf Z ist, d.h. dass � die<br />

Kolmogoroff-Axiome erfüllt. Offenbar gilt: 0 � �(B) � 1, für alle B � B, da �(B) =<br />

Pt(z,B) nur die Werte 0 oder 1 annehmen kann. Ebenso gilt �(Z) = 1, da trivialerweise<br />

ft(z) � Z für alle z � Z gilt. Bleibt noch die �-Additivität nachzuweisen: Für jede<br />

abzählbare Vereinigung von paarweise disjunkten Mengen Bn � B ist definitionsgemäß<br />

�( � B<br />

n n ) = Pt(z, � B<br />

n n ) = 1, falls ft(z) � Bn für irgendein n � 0 gilt. Andernfalls ist<br />

�( � B<br />

n n ) = 0. Da die Mengen paarweise disjunkt sind, gilt �(Bn) = Pt(z, Bn) = 1 für<br />

höchstens ein n. Für alle anderen Bn gilt �(Bn) = 0. Somit ist �n �(Bn) = 1 genau dann,<br />

wenn es ein n � 0 gibt, so dass ft(z) � Bn gilt. Andernfalls ist �n �(Bn) = 0. In beiden<br />

Fällen ist also �( � B<br />

n n ) = �n �(Bn), w.z.b.w. �<br />

Der vorhergehende Satz zeigt, dass die Abbildung B �� Pt(z,B) für alle Zustände z<br />

� Z als Wahrscheinlichkeitsmaß auf (�, A) interpretiert werden kann. Tatsächlich<br />

entspricht Pt(z,B) genau der bedingten Wahrscheinlichkeit dafür, dass das System<br />

sich zur Zeit t in einem Zustand z´� B befindet, wenn z der Ausgangszustand zur<br />

Zeit t = 0 war:<br />

Satz: Sei T = R�0 und (Zt)t�T ein deterministischer Prozess mit messbaren<br />

Zustandsübergängen in �* und p ein zulässiges Wahrscheinlichkeitsmaß. Dann<br />

gilt:<br />

Pt(z,B) = p(Zt � B / Z0 = z) für pZ 0 -fast alle z � Z.<br />

91


Beweis: Nach Voraussetzung gilt<br />

(1) Pt(z,B) = 1, falls ft(z) � B ist, und Pt(z,B) = 0, sonst.<br />

Nach Definition der Z0-bedingten Wahrscheinlichkeit gilt p-fast überall<br />

p(Zt � B/ Z0) = E(1�Z t � B� /Z0) =<br />

= E(1� f t (Z 0 ) � B�/ Z0) weil Zt = f(Z0) überall in �* gilt<br />

= 1� f t (Z 0 ) � B� nach Anhang A 4.2 (2), weil f(Z0) messbar in Z0 ist<br />

Somit gilt p-fast überall in �*<br />

p(Zt � B/ Z0)(�) = 1 � 1� f t (Z 0 ) � B�(�) = 1 � ft(Z0(�)) � B und<br />

p(Zt � B/ Z0)(�) = 0 � ft(Z0(�)) � B.<br />

Daraus folgt unmittelbar, dass<br />

(2) p(Zt � B/ Z0 = z) = 1 � ft(z) � B und p(Zt � B/ Z0 = z) = 0 � ft(z) � B<br />

für pZ 0 -fast alle z � Z gilt. Durch Vergleich von (1) und (2) ergibt sich die Behauptung. �<br />

Translationsinvariante Prozesse: Im folgenden betrachten wir zeitlichtranslationsinvariante<br />

Prozesse mit Indexmenge T = R�0 und messbaren<br />

Zustandsübergängen. Da die Funktion Pt(z,B) für festes z als<br />

Wahrscheinlichkeitsmaß und für festes B als Zufallsvariable aufgefasst werden<br />

kann, können wir die Verknüpfung<br />

Ps o Pt(z,B) := � Pt(z´,B) Ps(z,dz´)<br />

definieren. Dabei wird die Zufallsvariable Pt(z´,B) über dem<br />

Wahrscheinlichkeitsmaß �(dz´) := Ps(z,dz´) integriert.<br />

Der Integrand Pt(z´,B) ist für festes B eine Elementarfunktion, die definitionsgemäß nur<br />

die Werte 0 oder 1 annehmen kann. Sei nun A = � z´ � Z / Pt(z´,B) = 1 � =<br />

� z´ � Z / ft(z´) � B � und die Komplementmenge A* = � z´ � Z/ Pt(z´,B) = 0 � =<br />

� z´ � Z/ ft(z´) � B �. Dann reduziert sich das Integral � Pt(z´,B) �(dz´) auf<br />

d.h.<br />

� Pt(z´,B) �(dz´) = 1��(A) + 0��(A*) = �(A),<br />

� Pt(z´,B) Ps(z,dz´) = Ps(z,A)<br />

Nun gilt aber Ps(z,A) = 1 � fs(z) � A � ft (fs(z)) � B und Ps(z,A) = 0 � fs(z) � A �<br />

ft (fs(z)) � B. Folglich gilt<br />

Ps o Pt(z,B) := � Pt(z´,B) Ps(z,dz´) = 1 � ft(fs(z)) � B<br />

92


Für zeitlich-translationsinvariante Prozesse gilt aber ft(fs(z)) � B � fs+t(z) � B.<br />

Definitionsgemäß ist Ps+t(z,B) = 1 � fs+t(z) � B und Ps+t(z,B) = 0, sonst. Damit erhalten<br />

wir den folgenden<br />

Satz: Sei (Zt)t�T ein zeitlich-translationsinvarianter deterministischer Prozess mit<br />

Indexmenge T = R�0 und messbaren Zustandsübergängen. Dann gilt<br />

Ps o Pt = Ps+t (für alle s, t � 0)<br />

Die angegebenen Gleichungen werden gelegentlich auch als Chapman-<br />

Kolmogoroff-Gleichungen bezeichnet (vgl. Bauer, S. 361). Eine unmittelbare<br />

Folgerung aus den angegebenen Sätzen ist der folgende<br />

Satz: Unter den Voraussetzungen des vorhergehenden Satzes bilden die<br />

Funktionen Pt(z,B), Pt: Z � B � R eine Markoff-Halbgruppe von<br />

Erwartungskernen auf (Z,B).<br />

Beweis: Vgl. Bauer, Definition 64.1, S. 361. Die Erwartungskerne bilden lediglich eine<br />

Halbgruppe, weil es bei Prozessen mit der Indexmenge T = R�0 keine inversen Elemente<br />

P�t gibt. Wir können aber die vorhergehenden Überlegungen leicht auf<br />

translationsinvariante Prozesse mit der Indexmenge T = R ausdehnen. In diesem Fall gibt<br />

es zu jeder Funktion Pt eine inverse Funktion P�t mit der Eigenschaft, dass Pt o P�t = Pt�t<br />

= P0 gilt.<br />

Startverteilungen: Sei nun (Zt)t�T ein deterministischer Prozess mit Indexmenge<br />

T = R�0 und messbaren Zustandsübergängen ft : Z � Z in �* und sei p ein<br />

zulässiges Wahrscheinlichkeitsmaß auf A. Wir definieren ein<br />

Wahrscheinlichkeitsmaß p0: B � R durch die Vorschrift<br />

p0(B) := p(Z0 � B) (für alle B � B)<br />

p0(B) gibt also die Wahrscheinlichkeit an, dass der Prozess zur Zeit t = 0 in einem<br />

Zustand Z0 � B startet. Wir wollen daher im folgenden p0 als die „Startverteilung“<br />

des Prozesses bezeichnen. Analog dazu definieren wir für jeden nachfolgenden<br />

Zeitpunkt t ein Wahrscheinlichkeitsmaß pt: B � R durch die Vorschrift<br />

pt(B) := p0(ft -1 (B)) (für alle B � B)<br />

Unter den angegebenen Voraussetzungen gilt dann pt(B) = p(Zt � B) für alle<br />

B � B:<br />

93


Beweis: p(Zt � B) = p�� � � / Zt(�) � B � = p�� � � / ft(Z0(�)) � B � =<br />

p�� � � / Z0(�) � ft -1 (B)� = p(Z0 � ft -1 (B)) = p0(ft -1 (B)) = pt(B). �<br />

Zwischen den Verteilungen pt und den oben definierten Erwartungskernen Pt(z,B)<br />

besteht ein einfacher Zusammenhang, der in dem folgenden Satz formuliert wird:<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit Indexmenge T = R�0 und<br />

messbaren Zustandsübergängen ft : Z � Z in �* und sei p ein zulässiges<br />

Wahrscheinlichkeitsmaß auf A. Dann gilt:<br />

pt(B) = � Pt(z,B) p0(dz) (für alle B � B)<br />

Beweis: Pt(z,B) ist definitionsgemäß eine Elementarfunktion, die nur die Werte 0 oder 1<br />

annehmen kann. Dementsprechend ergibt eine Ausführung des Integrals � Pt(z,B) p0(dz)<br />

= p0�z � Z / Pt(z,B) = 1� = p0�z � Z / ft(z) � B� = p0(ft -1 (B)) = pt(B). �<br />

Sei nun J � R�0. Wir definieren eine Funktion fJ: Z � �t�J Z durch die Vorschrift:<br />

fJ(z) := derjenige, eindeutig bestimmte Pfad �: J � Z durch den Zustandsraum<br />

mit �(t) := ft(z) für alle t � 0.<br />

Mit anderen Worten: � = fJ(z) ist derjenige (Teil-) Pfad durch den Zustandsraum,<br />

der durch den Anfangszustand z determiniert wird. Die Abbildung fJ: Z � �t�J Z<br />

ist (B - �t�J B)-messbar, da fJ = �t�J ft ein Produkt von (B-B)-messbaren<br />

Funktionen ist. Ferner definieren wir eine Variable ZJ = �t�J Zt, d.h. ZJ: � � �t�J<br />

Z. Die Variable ZJ gibt den tatsächlichen Pfad des Systems im Zeitraum J � R�0<br />

an. Offenbar gilt dann ZJ = fJ o Z0, d.h. ZJ ist derjenige Pfad durch den<br />

Zustandsraum, der durch den tatsächlichen Anfangszustand Z0 des Systems<br />

determiniert wird. Schließlich definieren wir noch ein Wahrscheinlichkeitsmaß<br />

pJ: �t�J B � R durch die Vorschrift:<br />

pJ(B) := p0(fJ -1 (B)) (für alle B � �t�J B)<br />

Offenbar gilt dann: pJ(B) = p(ZJ � B) für ZJ = �t�J Zt und alle B � �t�J B.<br />

Beweis: p(ZJ � B) = p�� � � / ZJ(�) � B � = p�� � � / fJ(Z0(�)) � B � =<br />

p�� � � / Z0(�) � fJ -1 (B)� = p(Z0 � fJ -1 (B)) = p0(fJ -1 (B)) = pJ(B). �<br />

Die vorhergehenden Überlegungen zeigen, dass durch eine zulässige Verteilung p<br />

auf A und durch die Zustandsübergänge ft in einem deterministischen Prozess für<br />

jeden Zeitpunkt t ein Wahrscheinlichkeitsmaß pt festgelegt wird. Im folgenden<br />

94


Satz wird gezeigt, dass in gewisser Weise auch die Umkehrung dieser Aussage<br />

gilt, d.h. dass durch eine „Startwahrscheinlichkeit“ p0 und durch die<br />

Zustandsübergänge ft eindeutig ein Wahrscheinlichkeitsmaß p auf A induziert<br />

wird:<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit Indexmenge T = R�0 und<br />

messbaren Zustandsübergängen ft: Z � Z in �*. Dann gilt: Zu jeder<br />

Startverteilung p0: B � R gibt es genau ein zulässiges Wahrscheinlichkeitsmaß p<br />

auf A mit p0(B) = p(Z0 � B) für alle B � B und p = p0 o fT �1 .<br />

Beweis: A = �t�T B ist definitionsgemäß die kleinste Ereignisalgebra auf �t�T Z, in der<br />

alle Projektionen Zt: � � Z messbar sind. Unter diesen Voraussetzungen ist<br />

ZT: � � �t�T Z einfach die Identitätsabbildung, die jeden Pfad � � � auf sich selbst<br />

abbildet, so dass gilt: ZT(�) = � für alle � � � und A = �t�T B = ZT -1 (�t�T B), d.h. jedes<br />

Ereignis A � A hat die Form A = �ZT � B� für irgendein B aus �t�T B. Nun gilt aber<br />

pT(B) = p(ZT � B) für jedes zulässige Wahrscheinlichkeitsmaß p auf A mit p0(B) =<br />

p(Z0 � B) und pT(B) = p0(fT �1 (B)), also p(ZT � B) = p0(fT �1 (B)), d.h. p wird durch die<br />

Startverteilung p0 und die Übergangsfunktionen fT eindeutig festgelegt.<br />

95


11. Der Satz von Liouville<br />

Aus der statistischen Mechanik ist der Satz von Liouville bekannt. Dazu<br />

betrachten wir ein mechanisches System im Phasenraum, das sich zu Beginn der<br />

Bewegung (t = 0) in irgendeinem Zustand aus einem Bereich B0 � R 2n befinden<br />

kann. Zu jedem Startzustand aus B0 gibt es aufgrund der Bewegungsgleichungen<br />

einen eindeutig bestimmten Nachfolgezustand zur Zeit t > 0. Wir bezeichnen die<br />

Gesamtheit dieser Nachfolgezustände mit Bt. Wenn B0 ein zusammenhängendes<br />

Raumgebiet im Phasenraum ist, dann muss es sich bei Bt aufgrund der<br />

Stetigkeitsbedingungen um ein ebensolches Gebiet handeln, d.h. benachbarte<br />

Anfangszustände führen auch zu benachbarten Nachfolgezuständen. Die beiden<br />

Gebiete B0 und Bt werden im Allgemeinen nicht dieselbe geometrische Form<br />

besitzen, aber nach einem bekannten Satz von Poincaré muss das Phasenvolumen<br />

beim Bewegungsablauf unverändert bleiben.<br />

p<br />

�<br />

B0<br />

Wenn wir eine größere Anzahl N von mechanischen Systemen betrachten, die sich<br />

zur Zeit t = 0 in einem infinitesimalen Bereich B0 mit dem Volumen V befinden,<br />

dann muss nach Ablauf der Zeit t dieselbe Anzahl von Systemen in Bt auffindbar<br />

sein, da keines der Systeme aus dem markierten Bereich herauswandern oder von<br />

außen hereinwandern kann. Somit bleibt auch die infinitesimale Anzahl dN von<br />

Systemen in einem sehr kleinen Raumbereich mit dem Phasenvolumen dV<br />

konstant. Das bedeutet, dass die Dichte � = dN / dV der Systempunkte im<br />

Phasenraum konstant bleibt, d.h. dass<br />

d�<br />

= 0<br />

dt<br />

Bt<br />

q<br />

96


gelten muss. Dies ist der Satz von Liouville. Die Begründung dieser Aussage<br />

erfolgt üblicherweise in der angedeuteten Weise über die Poincaréschen<br />

Integralinvarianten, nimmt also auf die speziellen Gesetzmäßigkeiten der<br />

klassischen (Hamilton-) Mechanik Bezug. Tatsächlich kann man aber zeigen, dass<br />

der Satz von Liouville nicht nur in der klassischen Mechanik, sondern darüber<br />

hinaus ganz allgemein für beliebige deterministische Prozesse Gültigkeit besitzt,<br />

sofern gewisse mathematische Vorbedingungen erfüllt sind. Wir wollen diese<br />

Behauptung als den verallgemeinerten Satz von Liouville bezeichnen. Seine<br />

Formulierung und Begründung bilden den Inhalt dieses Kapitels.<br />

Dazu betrachten wir einen (beliebigen!) deterministischen Prozess (Zt)t�T mit<br />

Indexmenge T = R, einem Zustandsraum Z = R n und messbaren<br />

Zustandsübergängen ft: Z � Z in �*. Ferner wollen wir voraussetzen, dass die<br />

Funktionen ft umkehrbar eindeutig und bistetig 51 sind.<br />

Weiterhin sei B0 � B(R n ) eine beliebige Menge von möglichen Startzuständen.<br />

Mit Bt = � ft(z) / z � B0 � bezeichnen wir die zugehörigen Nachfolge-Zustände zur<br />

Zeit t. Wenn das System zu t = 0 in einem Zustand aus B0 startet, wird es sich also<br />

zur Zeit t > 0 in einem Zustand aus Bt befinden. Wenn ft umkehrbar eindeutig ist,<br />

dann ist B0 = ft �1 (Bt). Aus der Bistetigkeit folgt, dass auch die Umkehrfunktionen<br />

gt = ft �1 messbar und stetig sind. Unter diesen Voraussetzungen muss Bt = gt �1 (B0)<br />

eine Borelmenge sein, wenn B0 � B(R n ) ist. Sei nun p ein zulässiges<br />

Wahrscheinlichkeitsmaß auf A = �t�T B(R n ). Unter den genannten<br />

Voraussetzungen gilt die Gleichung<br />

p(Z0 � B0) = p(Zt � Bt)<br />

Zum Beweis genügt die Beobachtung, dass überall in �* die Gleichung Zt = ft(Z0)<br />

gilt. Aus der Zulässigkeit von p folgt dann, dass p(Zt � Bt) = p(ft(Z0) � Bt) =<br />

p(Z0 � ft �1 (Bt)) = p(Z0 � B0). Die intuitive Bedeutung dieser Aussage ist klar:<br />

Wenn ein deterministisches System sich unter den angegebenen Bedingungen zur<br />

Zeit t = 0 mit einer bestimmten Wahrscheinlichkeit in einem Startzustand z � B0<br />

befindet, dann muss sich das System zu jedem späteren Zeitpunkt t > 0 mit<br />

derselben Wahrscheinlichkeit in einem der zugehörigen Nachfolgezustände ft(z) �<br />

Bt befinden.<br />

Sei nun p0: B(R n ) � R die Startverteilung für die möglichen Anfangszustände, so<br />

dass p0(B0) = p(Z0 � B0) für alle B0 � B(R n ) gilt. In vielen Fällen ist die<br />

51 Damit ist gemeint, dass sowohl die Funktionen ft als auch die Umkehrfunktionen ft �1<br />

stetig sind. Unter den genannten Annahmen handelt es sich natürlich bei (Zt)t�T um einen<br />

bideterministischen Prozess.<br />

97


Startverteilung aus einer Dichtefunktion abgeleitet. So ist beispielsweise in dem<br />

früher diskutierten Fall eines freien Teilchens mit normalverteilten Startpositionen<br />

die Startverteilung aus der Dichtefunktion der Normalverteilung (Gaußsche<br />

Glockenkurve) abgeleitet. Eine Dichtefunktion ist definitionsgemäß eine<br />

messbare, nicht-negative Abbildung �0: R n �R mit der Eigenschaft<br />

(*) p0(B) = �B �0 d� n (� B � B(R n ))<br />

Dabei ist � n das Lebesguesche Maß auf dem R n , das jedem n-dimensionalen<br />

Intervall der Form I = (a1,b1) ��� (an,bn) das entsprechende Volumen � n (I) =<br />

(b1�a1) ��� (bn�an) zuordnet. Die Dichtefunktion ist durch die Gleichung (*) fast<br />

überall eindeutig bestimmt, d.h. für jede Funktion �´: R n �R mit den<br />

angegebenen Eigenschaften gilt �´ = �0 � n -fast-überall im R n . Wenn die<br />

Dichtefunktionen darüberhinaus auch stetig sind, dann sind sie überall identisch.<br />

Wie verändert sich nun die Dichtefunktion im Zeitablauf? Wenn die<br />

Wahrscheinlichkeitsmaße pt Lebesgue-stetig 52 sind, dann muss es 53 zu jedem<br />

n<br />

pt eine Dichtefunktion �t geben, so dass pt � �t�<br />

gilt. Diese wird im<br />

Allgemeinen nicht identisch sein mit den von den dynamischen Transformationen<br />

�1<br />

erzeugten Dichtefunktionen �0 t f � , weil die Dichte entlang einer Trajektorie �<br />

abnehmen oder zunehmen kann, wenn die benachbarten Trajektorien in einer<br />

kleinen Umgebung von � nach Ablauf der Zeit t ein größeres oder ein kleineres<br />

�1<br />

Volumen im Zustandsraum einnehmen, d h. im Allgemeinen ist � � � f !<br />

�t 0 t<br />

Um die zeitliche Entwicklung der Dichtefunktionen �t zu ermitteln, definieren wir<br />

n<br />

zunächst eine Funktion � : R �T<br />

� R durch die Vorschrift, dass<br />

� ,..., z , t)<br />

� � ( z)<br />

für alle Zeitpunkte t und alle Zustände z � z ,..., z ) � R<br />

( z1 n t<br />

gelten soll. Wir unterstellen im Folgenden stets, dass � stetig und in allen<br />

Argumenten mindestens einmal differenzierbar ist. Wenn alle Trajektorien<br />

�� �*<br />

stetig und nach der Zeit differenzierbar sind, dann gibt es Vektorfelder<br />

n n<br />

n n<br />

v : R �T<br />

� R und j : R �T<br />

� R , so dass gilt: v( z,<br />

t)<br />

� ��<br />

( t)<br />

und<br />

j( z,<br />

t)<br />

� �t<br />

( z)<br />

�v(<br />

z,<br />

t)<br />

. Dabei ist � diejenige, nach Voraussetzung eindeutig<br />

bestimmte Trajektorie in �*, für die � ( t) � z gilt. Nach Voraussetzung ist<br />

52 D.h. wenn jede Teilmenge B vom Lebesgue-Maß � ( B)<br />

� 0<br />

Wahrscheinlichkeit pt ( B)<br />

� 0 besitzt.<br />

53 nach dem Satz von Radon und Nikodym<br />

n<br />

( 1<br />

auch die<br />

n<br />

n<br />

98


�<br />

n<br />

�td�<br />

�1<br />

eine Erhaltungsgröße, daher muss für die Wahrscheinlichkeits-<br />

Stromdichte j ( z,<br />

t)<br />

eine Kontinuitätsgleichung gelten:<br />

Satz: Sei (Zt)t�T ein deterministischer Prozess mit T = R, Zustandsraum Z = R n<br />

und sei p ein zulässiges Wahrscheinlichkeitsmaß auf A = �t�T B(R n ). Ferner sei<br />

n<br />

n<br />

( � t ) t�T<br />

eine Familie von Dichtefunktionen �t<br />

: R � R mit pt � �t�<br />

für alle<br />

t � T . Wenn alle Trajektorien ��� * stetig und nach t differenzierbar sind, dann<br />

gilt<br />

��<br />

�t<br />

� �div<br />

Dabei ist ( z)<br />

: � j(<br />

z,<br />

t)<br />

� � ( z)<br />

���<br />

( t)<br />

für alle<br />

jt t<br />

Trajektorien ��� * mit � ( t) � z . �<br />

jt<br />

für alle t � T<br />

n<br />

z � R , für alle t �T und alle<br />

Translationsinvariante Systeme: Wir betrachten nun den – für die Physik<br />

besonders bedeutsamen – Fall, dass wir es mit einem translationsinvarianten<br />

Prozess zu tun haben. In diesem Fall gibt es ein zeitunabhängiges Vektorfeld<br />

n n<br />

v : R � R , so dass gilt: v( z)<br />

� ��<br />

( t)<br />

für alle Trajektorien ��� * und alle<br />

Zeitpunkte t mit � ( t) � z . Die Trajektorien ��� * sind also gerade die<br />

Integralkurven des Vektorfelds, d.h. sie repräsentieren die möglichen Lösungen<br />

der (autonomen!) Differentialgleichung �� ( t) � v(<br />

�(<br />

t))<br />

.<br />

Sei nun wieder jt ( z)<br />

: � j(<br />

z,<br />

t)<br />

� �t<br />

( z)<br />

�v(<br />

z)<br />

, d.h. jt : R � R . Dann ergibt sich<br />

für die Divergenz der Wahrscheinlichkeitsstromdichte zu jedem vorgegebenen<br />

Zeitpunkt t der aus der Vektoranalysis bekannte Ausdruck<br />

div � div ( � �v)<br />

� ( grad � ) �v<br />

� � �div<br />

v<br />

jt t<br />

t t<br />

In konservativen Systemen gilt definitionsgemäß div v � 0.<br />

Dementsprechend ist<br />

dort div jt � ( grad �t<br />

) �v<br />

. Wir definieren nun eine neue Funktion<br />

�� : T � R durch die Vorschrift, dass ( t) � �(<br />

�(<br />

t),<br />

t)<br />

für alle Zeitpunkte t und<br />

alle Trajektorien � gelten soll. Mit anderen Worten: � (t)<br />

ist die<br />

Wahrscheinlichkeitsdichte, die von einem auf der Trajektorie � mitbewegten<br />

Beobachter zur Zeit t gemessen wird. Das totale Differential<br />

� �<br />

n<br />

d�� � � i<br />

i�1 i �<br />

��<br />

��<br />

dz � dt<br />

�z<br />

t<br />

n<br />

�<br />

n<br />

99


Dabei ist �� �zi<br />

die partielle Ableitung der Dichtefunktion �( z1,..., zn<br />

, t)<br />

nach der<br />

i-ten Komponente von � ( t) � ( z1,...,<br />

zn<br />

) . Für die (totale) zeitliche Ableitung von<br />

� ergibt sich somit der Ausdruck<br />

�<br />

d<br />

dt<br />

� �<br />

�<br />

��<br />

( grad �t<br />

) �v<br />

� � div jt<br />

�t<br />

��<br />

�<br />

�t<br />

Berücksichtigt man dabei die Kontinuitätsgleichung div jt � ���<br />

�t<br />

so ergibt sich<br />

unmittelbar die Folgerung, dass<br />

d��<br />

dt<br />

und somit ��( t) � const.<br />

für alle Trajektorien ��� * gelten muss. Dies ist jedoch<br />

gerade der<br />

Satz von Liouville: Sei (Zt)t�T ein konservativer Prozess mit T = R, Zustandsraum<br />

Z = R n und sei p ein zulässiges Wahrscheinlichkeitsmaß auf A = �t�T B(R n ).<br />

n<br />

n<br />

Ferner sei ( � t ) t�T<br />

eine Familie von Dichtefunktionen �t<br />

: R � R mit pt � �t�<br />

für alle t � T . Dann gilt �� ( t) � const.<br />

für alle Zeitpunkte t und alle Trajektorien<br />

� ��*<br />

. �<br />

Sei S ein translationsinvariantes System und sei ( ft ) t�T<br />

die zugehörige Familie<br />

von dynamischen Transformationen. Aus dem Satz von Liouville folgt<br />

unmittelbar, dass in konservativen Systemen die Gleichungen<br />

� 0<br />

�t = �0 o ft �1 und �0 = �t o ft<br />

für alle t �T gelten muss, wenn die angegebenen Voraussetzungen erfüllt sind.<br />

n<br />

Das bedeutet unter anderem, dass für jede Region B� B(<br />

R )) im Zustandsraum<br />

des Systems nicht nur die Gleichung B ) � p ( B)<br />

für � f ( B)<br />

, sondern<br />

n<br />

n<br />

p0( 0 t<br />

�1<br />

B0 t<br />

auch die Gleichung � ( B0<br />

) � � ( B)<br />

erfüllt sein muss, da die<br />

Wahrscheinlichkeitsdichte � (z)<br />

in jedem Punkt z � B identisch mit der Dichte<br />

t<br />

�1<br />

z0 � t sein muss. 54<br />

�0 ( z0<br />

) in dem korrespondierenden Ausgangspunkt f ( z)<br />

54 Beweis: Sei p ein zulässiges Wahrscheinlichkeitsmaß, α � R>0 eine positive reelle Zahl<br />

und R � R<br />

n<br />

� : eine Wahrscheinlichkeitsdichte mit p<br />

n<br />

� � ( ) �<br />

0<br />

0 � �0 so dass 0 z � für<br />

100


Verfolgt man also die Wahrscheinlichkeitsdichte auf verschiedenen Trajektorien<br />

durch den Zustandsraum, so kann man dies als Strömung einer inkompressiblen<br />

Flüssigkeit betrachten. Die Wahrscheinlichkeitsdichte bleibt auf jeder Trajektorie<br />

konstant, d.h. ein mitbewegter Beobachter würde an seinem Ort stets die gleiche<br />

Dichte messen. Jedes Volumenelement der Flüssigkeit behält dabei seine Größe<br />

und verändert allenfalls seine Form.<br />

Beispiel: Sei Z = R 2n der klassische Phasenraum für ein System mit n<br />

Freiheitsgraden und sei R � R<br />

n 2<br />

H : die Hamiltonfunktion des Systems. Wenn H<br />

nicht explizit von der Zeit abhängt, ist S ein konservatives System.<br />

Dementsprechend gilt hier der Satz von Liouville für jede Familie ( � t ) t�T<br />

von<br />

n<br />

Dichtefunktionen mit pt � �t�<br />

für alle Zeitpunkte t und jedes zulässige<br />

Wahrscheinlichkeitsmaß p. Daraus folgt weiter, dass das Phasenvolumen unter<br />

dynamischen Transformationen unverändert bleibt, wie wir bereits eingangs<br />

erläutert haben. �<br />

Ein wichtiger Spezialfall sind stationäre Verteilungen. Darunter verstehen wir<br />

eine Familie (�t)t�T von Dichtefunktionen mit �t � �0<br />

für alle t � T. Sei dazu<br />

R � R<br />

n<br />

H : eine beliebige Erhaltungsgröße des Systems 55 , so dass dH � / dt � 0<br />

für alle Trajektorien � � �* gilt. Wir sagen, dass die Startverteilung �0 nur von H<br />

abhängt, wenn es eine Funktion � ~<br />

0 : R � R gibt, so dass � z) � ~ � ( H(<br />

z))<br />

für<br />

alle Zustände<br />

0(<br />

0<br />

n<br />

z �R gilt. In diesem Fall ist die Verteilung automatisch stationär:<br />

Satz: Sei (Zt)t�T ein konservativer Prozess mit Zustandsraum Z = R n und sei<br />

R � R<br />

n<br />

H : eine beliebige Erhaltungsgröße des Systems. Unter den<br />

Voraussetzungen des Liouville-Theorems gilt dann �� �t<br />

� 0 , wenn die<br />

Startverteilung �0 nur von H abhängt, d.h. die Verteilung ist dann stationär. �<br />

Stationäre Verteilungen spielen eine wichtige Rolle in der<br />

Gleichgewichtsthermodynamik und statistischen Mechanik. Die wichtigsten<br />

Beispiele sind die mikrokanonische und die kanonische Verteilung:<br />

alle Zustände B0<br />

n n<br />

z � gilt. In diesem Fall ist p0<br />

( B0<br />

) � � �0d� � � � � ( B0<br />

) . Sei ferner<br />

t � �t<br />

B0<br />

n<br />

�1<br />

und � ( z´) � �0<br />

( ft<br />

( z´))<br />

� �<br />

p0 ( B0<br />

) pt<br />

( B<br />

�1<br />

�t � �0<br />

� �t<br />

. Dann ist p � t für alle Zustände z´ � B ,<br />

n<br />

also p ( B)<br />

� � ��<br />

( B)<br />

. Da � ) gelten muss, folgt unmittelbar, dass<br />

t<br />

( 0<br />

55 d.h. für alle ��<br />

*<br />

n<br />

n<br />

� B ) � � ( B)<br />

ist. �<br />

101<br />

� und alle Zeitpunkte t gilt dH � / dt � 0 . Dabei ist H� ( t)<br />

: � H(<br />

�(<br />

t))<br />

.


Beispiel 1: Mikrokanonische Verteilung. Sei R 2n der Phasenraum für ein<br />

abgeschlossenes System von N gleichen Teilchen mit n = 3N Freiheitsgraden und<br />

sei R � R<br />

n 2<br />

H : die (zeitunabhängige) Hamiltonfunktion des Systems. Wir<br />

schreiben im Folgenden abkürzend H( qi<br />

, pi<br />

) anstelle von H( q1,...,<br />

qn,<br />

p1,...,<br />

pn<br />

) um<br />

die Notation zu vereinfachen. Mit �H � E� bzw. �H = E� bezeichnen wir die<br />

Gesamtheit aller Punkte ( q i , pi<br />

) im Phasenraum, für die H( qi<br />

, pi<br />

) � E bzw.<br />

( q , p ) � E gilt, d.h.<br />

H i i<br />

und<br />

2n<br />

qi i<br />

i i<br />

�H � E� = �( , p ) � R / H(<br />

q , p ) � E �<br />

2n<br />

qi i<br />

i i<br />

�H = E� = �( , p ) � R / H(<br />

q , p ) � E �<br />

Für jedes beliebige Energieniveau E sei<br />

Z<br />

E<br />

� �<br />

� dqidp<br />

�H E�<br />

das Volumen des Phasenraums, das von der Hyperfläche �H = E� eingeschlossen<br />

wird. Wir unterstellen im folgenden stets, dass ZE < � ist. Wir betrachten nun ein<br />

beliebig kleines Inkrement �E > 0. Dann ist<br />

�E � E�<br />

�E<br />

Z � Z<br />

das Volumen der „Energie-Schale“, die von den Hyperflächen �H = E�und �H =<br />

E + �E� begrenzt wird. Wenn alle Punkte innerhalb der Schale anfänglich<br />

gleichwahrscheinlich sind, dann gilt für die Wahrscheinlichkeitsdichte<br />

(Startverteilung):<br />

� 1<br />

� , für E � H ( qi<br />

, pi<br />

) � E � �E<br />

� ( , ) � � �<br />

0 qi<br />

pi<br />

E<br />

�<br />

� 0,<br />

sonst<br />

Im Limes �E � 0 ergibt sich daraus für die Dichtefunktion der Ausdruck<br />

mit<br />

1<br />

� 0 ( qi , pi<br />

) � ��<br />

( E � H(<br />

qi<br />

, pi<br />

))<br />

�<br />

E<br />

i<br />

E<br />

102


� E � ��( E � H(<br />

qi<br />

, pi<br />

)) dqidpi<br />

Die mikrokanonische Verteilung unterscheidet sich von der angegebenen<br />

n<br />

Dichtefunktion allerdings durch einen Faktor 1 / N! h , d.h.<br />

�<br />

1<br />

( qi , pi<br />

) � ��<br />

( E � H(<br />

qi<br />

, p ))<br />

n<br />

N!<br />

h �<br />

MK<br />

0 i<br />

E<br />

Dabei ist h das Plancksche Wirkungsquantum und N! �1� 2���<br />

N ist die Anzahl<br />

der möglichen Permutationen von N Teilchen. Dieser Faktor wird letztlich erst<br />

durch die Quantenphysik verständlich. Dort gilt nämlich das Prinzip der Nicht-<br />

Unterscheidbarkeit von identischen Teilchen. Für die Wahrscheinlichkeitsdichte<br />

ist daher völlig irrelevant, welche Teilchen sich in einem bestimmten Zustand<br />

befinden, sondern nur, wieviele Teilchen in diesem Zustand sind. Wir<br />

unterscheiden also nicht zwischen Zuständen, die durch Vertauschung<br />

(Permutation) von identischen Teilchen auseinander hervorgehen.<br />

Die Wahrscheinlichkeitsdichte in einem vorgegebenen Punkt des Phasenraums<br />

hängt bei den angegebenen Verteilungen offenbar nur von dem zugehörigen Wert<br />

der Hamiltonfunktion ab, d.h. es gibt eine Funktion<br />

~ � ( H)<br />

, so dass<br />

� ( q , p ) � ~ �(<br />

H(<br />

q , p ))<br />

0 i i<br />

i i<br />

überall im Phasenraum gilt. Daraus folgt unmittelbar, dass die Dichtefunktion<br />

stationär ist, d.h. es gilt<br />

für alle Zeitpunkte t > 0. �<br />

� q , p ) � � ( q , p )<br />

t ( i i 0 i i<br />

Beispiel 2: Kanonische Verteilung. Im Gegensatz zur mikrokanonischen<br />

Verteilung betrachten wir nun ein offenes System S, das in ein größeres System S´<br />

eingebettet ist. Das größere System wirkt dabei als „Wärmebad“, das für eine<br />

konstante Temperatur sorgt. Im Unterschied zur mikrokanonischen Verteilung ist<br />

hier also nicht die Energie, sonder die Temperatur des Systems konstant.<br />

Wenn man unterstellt, dass das Gesamtsystem (S + S´) eine mikrokanonische<br />

Verteilung aufweist, dann ergibt sich für die Wahrscheinlichkeitsdichte im<br />

Phasenraum des Teilsystem S der Ausdruck<br />

103


K 1 � H(<br />

qi<br />

, pi<br />

) �<br />

� 0 ( qi<br />

, pi<br />

) � exp ��<br />

�<br />

Z � k �T<br />

�<br />

Dabei ist k eine Konstante (die Boltzmann-Konstante) und T repräsentiert die<br />

Temperatur des Systems. 1/ ZT<br />

ist ein Normierungsfaktor, d.h.<br />

Z<br />

T<br />

�<br />

N<br />

T<br />

H(<br />

q , p )<br />

1 � i i �<br />

exp n<br />

! h � ��<br />

�<br />

� k �T<br />

�<br />

dq dp<br />

Wir verzichten hier auf eine Darstellung der (etwas langwierigen) Herleitung, die<br />

man in allen einschlägigen Lehrbüchern der statistischen Mechanik finden kann.<br />

Auch hier ist die Wahrscheinlichkeitsdichte (Startverteilung) nur von dem<br />

Energieniveau der Zustände abhängig. Dementsprechend ist auch die kanonische<br />

Verteilung stationär, d.h. es gilt wieder<br />

für alle Zeitpunkte t > 0. �<br />

K<br />

K<br />

� q , p ) � � ( q , p )<br />

t<br />

( i i 0 i i<br />

i<br />

i<br />

104


Zusammenfassung:<br />

� Sei (Zt)t�T ein (bi-) deterministischer Prozess mit T = R, Zustandsraum Z = R n<br />

und messbaren Zustandsübergängen ft: Z � Z. Ferner sei p ein zulässiges<br />

n<br />

Wahrscheinlichkeitsmaß auf A t�T<br />

B(<br />

R ) � � . Dann gilt<br />

�1<br />

pt 0 t<br />

( B)<br />

� p ( f ( B))<br />

für alle B� B(<br />

R ) und alle t � T .<br />

� Wenn die Funktionen p t Lebesgue-stetig sind, gibt es Dichtefunktionen<br />

n<br />

n<br />

�t<br />

: R � R mit pt � �t�<br />

für alle Zeitpunkte t. Für die Wahrscheinlichkeitsstromdichte<br />

gilt dabei die Kontinuitätsgleichung<br />

��<br />

�t<br />

� �div<br />

Dabei ist jt ( z)<br />

� �t<br />

( z)<br />

���<br />

( t)<br />

für alle Zustände<br />

��� * mit � ( t) � z .<br />

jt<br />

n<br />

für alle t � T<br />

n<br />

z � R und alle Trajektorien<br />

� Für konservative Systeme gilt der Satz von Liouville, d.h. �� ist auf allen<br />

Trajektorien aus �* konstant. Dabei ist �� ( t) : � �(<br />

�(<br />

t))<br />

die<br />

Wahrscheinlichkeitsdichte, die von einem auf der Trajektorie � mitbewegten<br />

Beobachter gemessen wird. Ein wichtiges Beispiel sind konservative Systeme<br />

in der klassischen Mechanik, bei denen die Hamiltonfunktion nicht explizit<br />

von der Zeit abhängt.<br />

� Ein wichtiger Spezialfall sind stationäre Verteilungen ( �� �t<br />

� 0 ).<br />

Prominente Beispiele sind die kanonische und die mikrokanonische<br />

Verteilung in der statistischen Mechanik.<br />

105


12. Zustandsübergänge in der Quantenphysik<br />

Wir haben früher gesehen, dass der Zustand eines physikalischen Systems mit n<br />

Freiheitsgraden in der klassischen Physik vollständig durch die Angabe von n<br />

Ortskoordinaten q1(t),...,qn(t) und der dazu kanonisch konjugierten Impulse<br />

p1(t),...,pn(t) beschrieben wird. Eine solche Zustandsbeschreibung ist in der<br />

Quantenphysik nicht möglich wegen der Heisenbergschen Unschärferelation,<br />

wonach für alle kanonisch konjugierten Koordinaten die Ungleichung<br />

�qi �pi � h/4�<br />

erfüllt sein muss (h = 6,626 . 10 -27 erg�sec ist eine Konstante, das Plancksche<br />

Wirkungsquantum). Dementsprechend kann der Zustand eines<br />

quantenmechanischen Systems nicht beschrieben werden durch seine Position im<br />

klassischen Phasenraum (Z = R 2n ), sondern durch eine sogenannte<br />

„Wellenfunktion“<br />

�t: R n � C<br />

(C = die Menge der komplexen Zahlen). �t ist eine quadratintegrierbare Funktion<br />

mit<br />

�<br />

R<br />

n<br />

�� ψ ( x ,..., x )<br />

t<br />

1<br />

2<br />

Das Amplitudenquadrat �t ( x1 ,..., xn<br />

) = �t ( x1,..., xn<br />

) wird üblicherweise als<br />

Wahrscheinlichkeitsdichte interpretiert. �t(x1,...,xn) gibt die gemeinsame<br />

Wahrscheinlichkeitsverteilung für die Ortskoordinaten x1,...,xn. (Wir werden hier<br />

und im folgenden immer von kartesischen Koordinaten ausgehen. Für ein N-<br />

Teilchen-System sind also n = 3�N Ortskoordinaten erforderlich).<br />

n<br />

Dementsprechend ist � �t ( x1,..., xn ) dx die Wahrscheinlichkeit dafür, die Teilchen<br />

B<br />

bei einer Ortsmessung zur Zeit t innerhalb eines Bereichs B � R n zu finden. Die<br />

Wahrscheinlichkeitsdichte für die zugehörigen Impulskoordinaten p1(t),...,pn(t)<br />

F<br />

F<br />

2<br />

wird gegeben durch �t ( p ,..., p ) = �t ( p ,..., p ) . Dabei ist �t F die Fourier-<br />

1 n<br />

1 n<br />

Transformierte von �t. 56 Orts- und Impulskoordinaten werden also in der<br />

Quantentheorie als Zufallsvariablen behandelt. Aus der Wellenfunktion �t lassen<br />

sich mithilfe der angegebenen Gleichungen nur Wahrscheinlichkeiten und<br />

Erwartungswerte für die Ergebnisse von Orts- oder Impulsmessungen ableiten.<br />

�n/<br />

2<br />

�<br />

n<br />

2<br />

dx<br />

n<br />

�1<br />

n<br />

t x1 xn i p1x1 pnxn dx<br />

56<br />

d.h. �t F (p1,...,pn) = ( 2��)<br />

( ,..., ) � exp( � ( �... � ) / �)<br />

�<br />

� .<br />

n<br />

106


Dabei gilt für das Produkt der Standardabweichungen �xi bzw. �pi die oben<br />

angegebene Unschärferelation.<br />

Die Gesamtheit aller quadratintegrierbaren Funktionen �: R n � C mit<br />

n<br />

� �( x1,..., xn ) dx < + � bildet einen Vektorraum H, da quadratintegrierbare<br />

�<br />

n<br />

2<br />

Funktionen addiert und mit Skalaren � � C multipliziert werden können. Die<br />

entsprechenden Definitionen lauten<br />

und<br />

(�1 + �2)(x1,...,xn) = �1(x1,...,xn) + �2(x1,...,xn)<br />

(���)(x1,...,xn) = ���(x1,...,xn).<br />

Ferner existiert ein Nullvektor � = 0, der überall in R n den Wert �(x1,...,xn) = 0<br />

annimmt. Man kann auf diesem Vektorraum ein (Pseudo-) Skalarprodukt<br />

< �1� �2 > definieren durch die Festsetzung<br />

�<br />

< �1� �2 > = � *( x ,..., x ) ��<br />

( x ,..., x ) dx<br />

�<br />

n<br />

� 1 n � 1 n<br />

Die Funktion < ��� >: H � H � C besitzt die folgenden Eigenschaften �� � C<br />

��, �, � � H:<br />

(1) < � � � > = < � � � >*<br />

(2) < � � � + � > = < � � � > + < � � � ><br />

(3) < � � ��� > = � � < � � � ><br />

(4) < � � � > � 0<br />

Ein echtes Skalarprodukt erfüllt darüberhinaus die Bedingung<br />

(5) < � � � > = 0 � � = 0<br />

Diese Bedingung kann im vorliegenden Fall verletzt sein, weil es<br />

Wellenfunktionen � gibt, die nur auf einer Menge N � R n vom Maß �(N) = 0<br />

einen Wert �(x1,...,xn) � 0 annehmen. In diesem Fall ist < � � � > = 0, obwohl � �<br />

0 ist. Man erhält daher ein echtes Skalarprodukt, wenn man H durch den<br />

Quotientenraum ersetzt, der aus allen Äquivalenzklassen von Vektoren besteht, die<br />

sich höchstens auf einer �-Nullmenge N unterscheiden.<br />

n<br />

107


Mithilfe des Skalarprodukts kann man jedem Vektor eine (Pseudo-) Norm<br />

� � � � � � � zuordnen. Darüberhinaus kann man die Orthogonalität zwischen<br />

Vektoren definieren durch die Bedingung � � � � < � � � > = 0.<br />

Der Vektorraum H zusammen mit dem eben definierten Skalarprodukt wird als<br />

Hilbertraum bezeichnet. 57 Der Hilbertraum tritt in der Quantentheorie an die Stelle<br />

des klassischen Phasenraums, d.h. H bildet den Zustandsraum des Systems. Damit<br />

ist gemeint, dass jeder mögliche Zustand des Systems durch einen Einheitsvektor<br />

� � H mit � 2 = < � � � > = 1 repräsentiert werden kann. Aus dem Zustand<br />

lassen sich dann in der oben beschriebenen Weise Wahrscheinlichkeitverteilungen<br />

für die möglichen Ergebnisse von Orts- oder Impulsmessungen am System<br />

ableiten. 58 Die Normierung auf 1 gibt dabei die Gewähr, dass das<br />

Amplitudenquadrat ��(x1,...,xn)� 2 tatsächlich als Wahrscheinlichkeitsdichte gedeutet<br />

werden kann.<br />

Für die Analyse von kausalen Zusammenhängen sind natürlich weniger die<br />

Zustände selbst, sondern die möglichen Zustandsübergänge maßgeblich.<br />

Sei daher � = �t�T H die Menge aller möglichen Bahnen (Trajektorien) durch den<br />

Hilbertraum (für irgendein offenes Zeitintervall T � R). Der Zustand des Systems<br />

zur Zeit t ist dann gegeben durch<br />

Zt(�) = �(t)/ �( t ) , für alle � � �<br />

d.h. wir interpretieren Zt als „Zufallsvariable“, die jedem möglichen Pfad � � �<br />

einen Einheitsvektor Zt(�) = �(t)/ �( t ) zuordnet. Definitionsgemäß ist Zt(�) der<br />

Quantenzustand des Systems zur Zeit t, falls sich das System auf dem Pfad �<br />

durch den Hilbertraum bewegt. Für den Fall, dass �(t) selbst schon ein<br />

Einheitsvektor ist, gilt natürlich �( t ) = 1 und somit Zt(�) = �(t). Wir<br />

57 Ein Hilbertraum ist ein komplexer Vektorraum, der bezüglich der Normtopologie<br />

vollständig ist. Damit ist gemeint, dass jede zu jeder konvergenten Folge (�n)n�N von<br />

Vektoren mit lim i, k�� �i � �k � 0 ein Vektor � mit limi�� �i � � in H existiert.<br />

Strenggenommen ist nicht H selbst, sondern der Quotientenraum aller Äquivalenzklassen<br />

��� := � �´ � H � �´ � � � als Hilbertraum anzusehen. Dabei gilt definitionsgemäß �´ � �<br />

genau dann, wenn die Funktionswerte �´(x1,...,xn) und �(x1,...,xn) höchstens auf einer �-<br />

Nullmenge N � R n verschieden sind.<br />

58 Vektoren �, �´, die sich nur durch einen Phasenfaktor unterscheiden, so dass<br />

�´ = � � e i� gilt, sind dabei physikalisch äquivalent: Sie repräsentieren denselben Zustand,<br />

weil sie zu denselben Wahrscheinlichkeitsverteilungen führen.<br />

108


vereinbaren, dass im folgenden stets �t = �(t)/ �( t ) sein soll, falls �(t) nicht<br />

ohnehin schon ein Einheitsvektor ist.<br />

Die Quantentheorie ist bekanntlich eine nicht-deterministische Theorie, weil aus<br />

den Zustandsfunktionen �t nur Wahrscheinlichkeitsaussagen bzw. –vorhersagen<br />

über die Ergebnisse von Orts- oder Impulsmessungen ableitbar sind. Dennoch<br />

enthält auch die Quantenphysik eine wichtige deterministische Komponente, weil<br />

die Zustandsübergänge im Hilbertraum vollständig und eindeutig durch<br />

deterministische Gesetzmäßigkeiten (nämlich durch die sogenannte Schrödinger-<br />

Gleichung) festgelegt sind. Aufgrund der Schrödinger-Gleichung gilt<br />

Dabei ist � = h/2� = 1,0545�10 �27 erg�sec und H : H � H ein linearer Operator,<br />

der sogenannte Hamilton-Operator des Systems. Der Ausdruck < �t � H�t > gibt<br />

den Erwartungswert für die Gesamtenergie des Systems. Die Schrödinger-<br />

Gleichung ist eine partielle Differentialgleichung erster Ordnung in t, die zu<br />

gegebenen Anfangsbedingungen �0 stets eindeutige Lösungen �t für alle t � 0<br />

ergibt. Dementsprechend sind durch den Zustand �0 alle nachfolgenden Zustände<br />

�t des Systems vollständig und eindeutig determiniert. Wir können daher – in<br />

Analogie zum klassischen Fall – die folgende Aussage formulieren:<br />

Satz: Sei � = �t�T H und Zt(�) = �(t)/ �( t ) für alle � � � und alle t � T. Ferner<br />

sei �* � � die Menge aller Pfade durch den Hilbertraum, die die Schrödinger-<br />

Gleichung erfüllen. Dann gilt: (Zt)t�T ist ein deterministischer und<br />

bideterministischer Prozess in �*. 59<br />

Aufgrund unserer früheren Überlegungen können wir daraus unmittelbar die<br />

nachfolgenden Schlüsse ziehen:<br />

Folgerungen:<br />

(1) Für alle Zeitpunkte t � T und alle Zustände � � H gibt es genau einen Pfad<br />

� � �* mit �(t) = � (Satz vom eindeutigen Pfad) und<br />

(2) Für alle t, t´ � T mit t < t´ gilt �t


Die Konzepte und Definitionen, die zu diesen Ergebnissen führen sind weitgehend<br />

analog zu den entsprechenden Konzepten aus der klassischen Mechanik. Um die<br />

Analogie zu verdeutlichen, wollen wir die korrespondierenden Konzepte noch<br />

einmal in tabellarischer Form gegenüberstellen.<br />

Allgemeine Konzepte<br />

Z: mögliche Zustände<br />

T: linear geordnete<br />

Menge von Zeitpunkten<br />

�: mögliche Pfade durch<br />

den Zustandsraum<br />

Zt: Zustand zur Zeit t<br />

Klassische Mechanik<br />

Z = R 2n<br />

T � R<br />

� = �t�T Z<br />

Zt(�) = �(t) (����)<br />

Z = H<br />

T � R<br />

Quantenphysik<br />

� = �t�T H<br />

Zt(�) = �(t) (����)<br />

Trotz dieser Analogie besteht natürlich ein fundamentaler Unterschied zwischen<br />

dem klassischen und dem quantenmechanischen Fall, weil aus den<br />

quantenmechanischen Zuständen nur statistische Vorhersagen über die Ergebnisse<br />

von physikalischen Beobachtungen und Messungen ableitbar sind, während im<br />

Fall der klassischen Physik die Werte der Observablen unmittelbar aus der<br />

Position im Phasenraum ableitbar sind. Das ändert aber nichts an dem Umstand,<br />

dass die Zustandsübergänge selbst einen rein deterministischen Charakter<br />

besitzen.<br />

A. Messiah schreibt dazu in seinem bekannten Lehrbuch:<br />

„Bei Fehlen jedes äußeren Einflusses verläuft die zeitliche Entwicklung des Zustands<br />

eines Systems streng kausal. Der ihn beschreibende Vektor ... führt gemäß der<br />

Schrödinger-Gleichung ... eine stetige Bewegung aus.“ (Quantenmechanik, Band 1,<br />

Berlin 1991, S. 281).<br />

Offenbar versteht Messiah hier unter einer „streng kausalen“ Entwicklung<br />

dasselbe, was wir als hier als einen deterministischen Prozess mit stetigen<br />

Zustandsübergängen bezeichnet haben. Noch deutlicher formuliert E. Nagel<br />

(1961):<br />

„relative to its own form of state description quantum theory is deterministic in the same<br />

sense that classical mechanics is deterministic with respect to the mechanical description<br />

of state.“ (E. Nagel: The Structure of Science, New York 1961, S. 306, zitiert nach J.<br />

Earman 1986, S. 200)<br />

110


Der indeterministische Charakter der Quantenphysik zeigt sich erst dann, wenn ein<br />

System durch äußere Einwirkungen, also beispielsweise durch einen Messvorgang<br />

gestört wird. Jeder Messvorgang erfordert nämlich eine Wechselwirkung zwischen<br />

einem makroskopischen Messgerät und einem mikrophysikalischen<br />

Quantensystem und bewirkt dadurch eine Zustandsveränderung an dem<br />

Quantensystem, die nicht durch dessen Schrödinger-Gleichung vorhersagbar ist. 60<br />

Dazu noch einmal Messiah:<br />

„Kausalität gibt es in voller Strenge nur bei isolierten Systemen. Der dynamische Zustand<br />

eines solchen Systems wird zu einem bestimmten Zeitpunkt durch seine Wellenfunktion<br />

zu diesem Zeitpunkt dargestellt. Es existiert ein kausaler Zusammenhang zwischen der<br />

Wellenfunktion �(t0) zu einem bestimmten Anfangszeitpunkt und der Wellenfunktion<br />

�(t) zu jedem späteren Zeitpunkt. Dieser Zusammenhang wird durch die Schrödinger-<br />

Gleichung ausgedrückt. Versucht man jedoch, am System eine Messung auszuführen, so<br />

kann die Einwirkung des Messinstruments auf dieses System niemals vernachlässigt<br />

werden. Überdies bleibt diese Einwirkung in einem gewissen Maße unvorhersehbar und<br />

unkontrollierbar, denn es gibt keine klare Trennung zwischen dem beobachteten System<br />

und dem Messinstrument.“ (loc. cit. S. 144)<br />

Nichtsdestoweniger kann man aus den Bewegungsgleichungen und<br />

Anfangsbedingungen �(t0) jederzeit statistische Vorhersagen über die<br />

Wahrscheinlichkeiten und Erwartungswerte von möglichen Messergebnissen zur<br />

Zeit t ableiten, wie wir bereits mehrfach festgestellt haben. Auch hier besteht<br />

allerdings ein wichtiger Unterschied zur klassischen statistischen Mechanik,<br />

nämlich in dem Umstand, dass nicht-kommutierende Observablen (z.B. Orte und<br />

Impulse) nicht gleichzeitig messbar sind. Dementsprechend existiert in der<br />

Quantenphysik keine gemeinsame Wahrscheinlichkeitsverteilung für solche<br />

Observablen. Wir wollen daher im nächsten Kapitel die statistischen Vorhersagen<br />

der Quantentheorie genauer beleuchten.<br />

60 Darin besteht ein wichtiger Unterschied zur Beschreibung von makroskopischen<br />

Systemen in der klassischen Physik. Dort ist die Rückwirkung des Messvorgang auf das<br />

physikalische System, an dem die Messung durchgeführt wird, in der Regel so gering,<br />

dass sie für praktische Zwecke vernachlässigt werden kann.<br />

111


13. Projektoren und Ereignisverbände<br />

1) Unterräume: Sei H ein beliebiger Hilbert-Raum. Ein abgeschlossener<br />

Unterraum E � H ist eine Menge von Vektoren, die abgeschlossen unter den<br />

Vektorraum-Operationen ist, d.h: Wenn �1,...,�n Vektoren aus dem Unterraum<br />

sind, dann ist auch jede Linearkombination c0 + c1�1 + ... + cn�n mit komplexen<br />

Koeffizienten ci � C im Unterraum enthalten 61 . Zusätzlich wollen wir<br />

voraussetzen, dass E auch topologisch abgeschlossen ist: Wenn eine Folge<br />

�1,...,�n,... von Hilbert-Vektoren aus dem Unterraum E gegen einen Grenzwert �<br />

konvergiert 62 , dann liegt auch der Vektor � in E. Wir schreiben wie üblich E � E´,<br />

wenn der abgeschlossene Unterraum E als Teilmenge in einem anderen Unterraum<br />

E´ enthalten ist. E wird in diesem Fall als Teilraum von E´ bezeichnet. Wichtig für<br />

die weiteren Überlegungen ist der folgende<br />

Satz: Die Gesamtheit C(H) aller abgeschlossenen Unterräume aus einem Hilbert-<br />

Raum H bildet einen vollständigen orthomodularen Verband, der durch die<br />

Inklusionsrelation � partiell geordnet wird.<br />

Der Beweis ergibt sich aus der Feststellung, dass man zu jeder nicht-leeren<br />

Familie U von abgeschlossenen Unterräumen jederzeit ein Infimum und ein<br />

Supremum finden kann. Beim Infimum handelt es sich definitionsgemäß um die<br />

größte untere Schranke, also um den größten abgeschlossenen Unterraum E, der in<br />

allen Unterräumen aus U enthalten ist. Analog dazu ist das Supremum die kleinste<br />

obere Schranke, also der kleinste abgeschlossene Unterraum, der alle Unterräume<br />

aus U enthält. Man kann zeigen, dass inf(E1,E2) = E1 � E2 ist. Dagegen ist<br />

sup(E1,E2) im Allgemeinen eine echte Obermenge von E1 � E2. Der Verband<br />

enthält ein Null-Element 0 und ein Eins-Element 1, so dass 0 � E � 1 für alle<br />

Unterräume E aus H erfüllt ist, nämlich den abgeschlossenen Unterraum, der nur<br />

den Nullvektor als Element enthält und den vollständigen Hilbert-Raum 1 = H<br />

selbst. Ferner gibt es zu jedem abgeschlossenen Unterraum E ein<br />

Orthokomplement E � . Damit bezeichnen wir die Gesamtheit aller Vektoren<br />

�´ � H, die auf allen Vektoren aus dem Unterraum E senkrecht stehen, d.h. E � =<br />

� �´� H / < �´� � > = 0 für � � � E � 63 .<br />

61 Insbesondere ist also der Nullvektor im jedem Unterraum enthalten. Das entspricht<br />

einer Linearkombination, bei der alle Koeffizienten ci = 0 sind.<br />

62 Damit ist gemeint, dass limn�����n � ��� = 0 ist.<br />

63 Ein Orthokomplement ist eine einstellige Operation � mit folgenden Eigenschaften:<br />

(1) inf(E,E � ) = 0, (2) sup(E,E � ) = 1, (3) E = E �� , (4) E1 � E2 � E2 � � E1 � .<br />

112


C(H) unterscheidet sich von einen gewöhnlichen (Booleschen) Mengenverband,<br />

weil das Distributivgesetz in C(H) nicht allgemein gültig ist. Sattdessen erfüllt<br />

C(H) die schwächere Bedingung der Orthomodularität: Das bedeutet, dass für<br />

beliebige Unterräume die Beziehung<br />

E1 � E2 � E1 � (E1 � E2) � = 0<br />

erfüllt ist. Zum Vergleich: In Booleschen Verbänden gilt E1 � E2 genau dann,<br />

wenn E1 � E2 � = 0 ist 64 . Jeder Boolesche Verband ist also orthomodular, aber nicht<br />

jeder orthomodulare Verband ist ein Boolescher Verband, wie man an einfachen<br />

Gegenbeispielen erkennen kann.<br />

2) Projektoren: Jedem abgeschlossenen Unterraum E entspricht umkehrbar<br />

eindeutig ein sogenannter Projektionsoperator PE: H � H. Um die Wirkungsweise<br />

des Operators zu verstehen, muss man beachten, dass sich jeder Hilbert-Vektor �<br />

eindeutig in eine Summe � = �E + �E � zerlegen lässt, wobei �E � U und �E � � E �<br />

ist. Der Operator PE ordnet jedem Hilbert-Vektor � die zugehörige E-Komponente<br />

zu, d.h. PE(�) = �E. Wegen der umkehrbar eindeutigen Korrespondenz mit den<br />

Unterräumen von H bilden auch die Projektionsoperatoren einen vollständigen<br />

orthomodularen Verband, wenn man eine partielle Ordnung auf den Projektoren<br />

durch die Bedingung<br />

PE � PE´ � E � E´<br />

definiert. Dieser Verband wird im folgenden mit P(H) bezeichnet. Jeder<br />

Projektionsoperator ist selbstadjungiert, d.h. es gilt < �1� PE�2 > = < PE�1� �2 ><br />

für alle Vektoren �1, �2 aus dem Hilbert-Raum. Dabei ist PE 2 = PE, d.h. die<br />

Anwendung eines Projektionsoperators auf einen Vektor, der bereits im<br />

Unterraum E liegt, lässt diesen Vektor unverändert. Umgekehrt kann man zeigen,<br />

dass jeder selbstadjungierte Operator P mit P 2 = P ein Projektionsoperator ist.<br />

3) Observablen: Die physikalische Bedeutung des Unterraum-Verbands ergibt<br />

sich aus der folgenden Feststellung: Zu jeder physikalisch messbaren Größe X und<br />

zu jeder Borelmenge B � B(R) von möglichen Messergebnissen existiert ein<br />

eindeutig bestimmter Unterraum EX,B und ein entsprechender Projektionsoperator,<br />

den wir mit PX,B bezeichnen, so dass gilt: Die Größe<br />

X<br />

p� B ( ) = < �� PX,B� ><br />

64 In einem Booleschen Verband ist natürlich das Null-Element 0 = � identisch mit der<br />

leeren Menge.<br />

113


entspricht der Wahrscheinlichkeit, dass eine Messung von X zu einem Wert x � B<br />

führt, wenn sich das System im Zustand � befindet. Wenn B ein halboffenes<br />

Intervall der Form B = (��, �� ist, dann schreiben wir auch PX,� anstelle von PX,B.<br />

In diesem Fall ist < �� PX,B� > die Wahrscheinlichkeit, dass eine Messung von X<br />

zu einem Wert x � � führt. Wegen der eindeutigen Korrespondenz von<br />

abgeschlossenen Unterräumen mit möglichen Messergebnissen können wir jeden<br />

abgeschlossenen Unterraum EX,B als ein mögliches Ereignis betrachten, das wir<br />

formal mit EX,B = �X � B� bezeichnen wollen.<br />

Ein wichtiges Grundprinzip der Quantentheorie besagt, dass jeder messbaren<br />

Größe (jeder Observablen) X nacheindeutig ein linearer Operator 65 A: DA � H im<br />

Hilbert-Raum entspricht, so dass A = �R � dPX,� gilt. Diese etwas obskure<br />

Schreibweise dient als Abkürzung für die Feststellung, dass für alle Hilbert-<br />

Vektoren � aus dem Definitionsbereich von A die Beziehung<br />

< � � A� > = �R � dp X � � ( )<br />

erfüllt ist. Dabei ist p X � das eindeutig bestimmte Maß, das jeder Borelmenge B =<br />

X<br />

(��, �� den Wert p� B ( ) = < � � PX,� � > zuordnet. Somit entspricht<br />

� = < � � A� ><br />

dem Erwartungswert von X im Zustand �, d.h. wir haben E�(X) = < � � A� >,<br />

wenn X eine messbare Größe und A der zugehörige Operator im Hilbert-Raum ist.<br />

Für die Varianz von X folgt daraus Var�(X) = E�(X 2 ) � (E�(X)) 2 = � � � 2 .<br />

Die positive Quadratwurzel ��(X) aus der Varianz wird wie üblich als<br />

Standardabweichung bezeichnet. Sie ist ein Maß für die zu erwartende Streuung<br />

der Messwerte, wenn der Messvorgang unter gleichbleibenden<br />

Versuchsbedingungen � sehr oft (n � � ) durchgeführt wird. Der Fall ��(X) = 0<br />

tritt genau dann ein, wenn es eine reelle Zahl � gibt, so dass A� = ��� gilt. � wird<br />

dann als Eigenwert von A bezeichnet und � als ein zugehöriger Eigenvektor. Das<br />

bedeutet, dass die Observable X mit Sicherheit (= mit Wahrscheinlichkeit 1) den<br />

Wert � annimmt, wenn sich das System in einem Eigenzustand � befindet.<br />

Zwei Operatoren A und B, die den Observablen X und Y entsprechen heißen<br />

vertauschbar, wenn die zugehörigen Projektoren kommutieren, d.h. wenn für alle<br />

Borelmengen B, B´ � B(R) und alle � � H die Beziehung<br />

65 Dabei ist der Definitionsbereich DA � H immer ein (nicht unbedingt abgeschlossener)<br />

Unterraum, der dicht in H liegt.<br />

114


PX,B PY,B´� � PY,B´ PX,B � = 0<br />

gilt. Für beschränkte Operatoren, die im ganzen Hilbert-Raum definiert sind, ist<br />

diese Bedingung äquivalent mit der Forderung, dass für alle Hilbert-Vektoren die<br />

Beziehung AB(�) = BA(�) gilt. Der Operator �A,B� = AB � BA wird als<br />

Kommutator bezeichnet. Für vertauschbare Operatoren ist definitionsgemäß �A,B�<br />

= 0. Man kann zeigen, dass für Orts- und Impulsmessungen, die zur selben<br />

Ortskoordinate gehören die zugehörigen Operatoren nicht kommutieren, sondern<br />

die Beziehung �A,B�� = i�� für alle � � D�A,B� erfüllen. Dies ist ein anderer<br />

Ausdruck für die Heisenbergsche Unschärfe-Relation, denn aus der angegebenen<br />

Vertauschungsrelation folgt durch einfache Rechnung, dass für das Produkt der<br />

Standardabweichungen die früher angegebene Beziehung<br />

�qi��pi � �/2<br />

gelten muss. Allgemein gilt folgende wichtige Feststellung: Wenn zwei<br />

Operatoren A und B nicht kommutieren, dann handelt es sich bei den zugehörigen<br />

Observablen X und Y um Größen, die in der Quantenphysik nicht gleichzeitig<br />

messbar sind. Eine Messung von X und eine anschließende Messung von Y führt<br />

daher im Allgemeinen zu anderen Ergebnissen als eine Messung von Y mit einer<br />

anschließenden Messung von X.<br />

Zusammenfassung: Jeder physikalisch messbaren Größen und jeder Gesamtheit<br />

von möglichen Messergebnissen entspricht nacheindeutig ein abgeschlossener<br />

Unterraum von H. Sei dazu<br />

� X: eine messbare Größe und<br />

� B � B(R): eine Menge von möglichen Messergebnissen. Dann ist<br />

� EX,B : der zugehörige Unterraum und<br />

� PX,B: H � EX,B der entsprechende Projektionsoperator. Es gilt:<br />

� p B<br />

X<br />

� ( ) = < �� PX,B� > = die Wahrscheinlichkeit, dass X einen Wert x � B<br />

besitzt, wenn sich das System im Zustand � befindet.<br />

Die Gesamtheit der abgeschlossenen Unterräume bildet einen orthomodularen<br />

Verband. Er kann als ein Verband von möglichen Ereignissen (Messergebnissen)<br />

gedeutet werden.<br />

115


14. Quantenlogik und Quantenwahrscheinlichkeit<br />

Wir haben gesehen, dass aus dem Formalismus der Quantentheorie nur statistische<br />

Vorhersagen über die Ergebnisse von physikalischen Beobachtungen und<br />

Messungen ableitbar sind. Damit stellt sich die Frage, ob es – wenigstens im<br />

Prinzip – möglich ist, die Quantentheorie zu einer deterministischen Theorie im<br />

klassischen Sinn zu erweitern, die eindeutige Vorhersagen über alle möglichen<br />

Messergebnisse gestattet. 66 In diesem Fall wäre die Wellenfunktion nur eine<br />

unvollständige Beschreibung der physikalischen Zustände eines Quantensystems<br />

und der statistische Charakter der Quantenphysik ein Ausdruck für die<br />

Unvollständigkeit unseres physikalischen Wissens.<br />

John von Neumann (1932) hat in seinen „<strong>Mathematische</strong>n <strong>Grundlagen</strong> der<br />

Quantenmechanik“ versucht zu beweisen, dass es aus mathematischen Gründen<br />

prinzipiell nicht möglich ist, eine vollständige Beschreibung der möglichen<br />

Quantenzustände zu formulieren, in der alle Messergebnisse „streuungsfrei“, also<br />

mit 100 %iger Sicherheit vorhersagbar sind. Von Neumanns Beweis ist aber von<br />

verschiedenen Autoren kritisiert worden 67 , weil er von fragwürdigen<br />

Voraussetzungen Gebrauch macht. Dennoch ist von Neumanns Beweis zum<br />

Ausgangspunkt für eine Reihe von Theoremen geworden, die eine ähnliche<br />

Aussage zum Inhalt haben. Solche Theoreme werden daher häufig als<br />

„Unmöglichkeitstheoreme“ oder auch als „No-go-Theoreme“ bezeichnet.<br />

Das wichtigste Beispiel ist ein Theorem von Kochen und Specker (1967). Dabei<br />

geht es um die Frage, ob es grundsätzlich möglich ist, allen Observablen eines<br />

Quantensystems gleichzeitig scharf definierte Werte zuzuordnen. In der<br />

Quantentheorie entspricht bekanntlich jeder Observablen ein selbstadjungierter<br />

Operator. Zur Vereinfachung der Überlegungen betrachten wir uns im folgenden<br />

nur beschränkte Operatoren, die überall im Hilbertraum definiert sind. 68 Die<br />

Gesamtheit dieser Operatoren sei B(H). Unter einer Kochen-Specker-Funktion<br />

(kurz: KS-Funktion) verstehen wir im folgenden eine Abbildung v: B(H) � R,<br />

die jeder Observablen einen numerischen Wert zuordnet. Wenn die numerischen<br />

Werte v(X) als Aussagen über mögliche Messergebnisse gedeutet werden sollen,<br />

66 Solche Theorien werden gelegentlich auch als VP-Theorien bezeichnet. Die<br />

Abkürzung VP steht für „verborgene Parameter“. Dahinter steht die Vorstellung, dass die<br />

Wellenfunktion der Quantenphysik eine unvollständige Zustandsbeschreibung darstellt,<br />

die durch die Hinzufügung von geeigneten „Parametern“ ergänzt werden kann.<br />

67 insbesondere von J. S. Bell (1966). Im Mittelpunkt der Kritik steht die Annahme, dass<br />

das Linearitätsprinzip auch für die Erwartungswerte von nicht-kommutierenden<br />

Observablen gelten soll, die bekanntlich nicht gleichzeitig (also im Rahmen ein- und<br />

desselben Zufallsexperiments) messbar sind.<br />

68 Dazu gehören insbesondere alle Projektionsoperatoren<br />

116


muss die Zuordnungsvorschrift gewisse Konsistenzbedingungen erfüllen.<br />

Genauer: Für jede Borel-messbare Funktion f : R n � R und jedes n-tupel von<br />

simultan messbaren Observablen X1,..., Xn muss die sogenannte<br />

Funktionsbedingung erfüllt sein, d.h:<br />

v(f(X1,..., Xn)) = f(v(X1),…, v(Xn))<br />

Diese Einschränkung ist sinnvoll, weil im Falle einer simultanen Messung von<br />

X1,..., Xn mit den Ergebnissen v(X1),…, v(Xn) nur f(v(X1),…, v(Xn)) als Messwert<br />

für die Observable Y = f(X1,…, Xn) in Frage kommt. Das bedeutet unter anderem,<br />

dass für kommutierende Observablen X, Y die Summenregel v(X + Y) = v(X) +<br />

v(Y) und die Produktregel v( X �Y) � v( X) � v( Y)<br />

erfüllt sein müssen. Eine KS-<br />

Funktion v : B(H) � R heißt nicht-trivial, wenn v(1) = 1 ist. 69 Der Satz von<br />

Kochen und Specker besagt nun, dass es keine nicht-triviale Zuordnungsvorschrift<br />

v : B(H) � R gibt, die die genannten Bedingungen erfüllt:<br />

Satz von Kochen und Specker: Sei S ein physikalisches System mit einem<br />

mindestens dreidimensionalen Hilbertraum H. Dann gibt es keine nicht-triviale<br />

Abbildung v : B(H) � R, die die Funktionsbedingung erfüllt.<br />

Beweis: Wir beschränken uns auf den Beweis der Aussage in 4 Dimensionen, weil<br />

hier der Beweis besonders einfach geführt werden kann 70 . Dazu sei �1, �2, �3, �4<br />

ein vollständiges Orthonormalsystem in H. Die zugehörigen Projektionsoperatoren<br />

P1, P2, P3, P4 sind durch die Gleichung<br />

Pi (�) = < �i � � > �i (für i = 1,...,4 und alle � � H)<br />

definiert. Da jeder Vektor in der angegebenen Basis dargestellt werden kann gilt<br />

P1 + P2 + P3 + P4 = 1. Sei nun v die gesuchte KS-Funktion. Wegen der<br />

Idempotenzregel Pi Pi = Pi und der Produktregel gilt dann v(Pi) = v(Pi) 2 für i =<br />

1,...4. Daher kann v(Pi) nur gleich 0 oder 1 sein. Wegen der Summenregel muss<br />

4<br />

�<br />

i �1<br />

andererseits v( Pi ) = v(P1 + P2 + P3 + P4) = v(1) = 1 sein. Mithin muss in einer<br />

Hilbertbasis genau ein Basisvektor den KS-Wert 1 erhalten, alle anderen den Wert<br />

0. Betrachten wir nun die folgende Tabelle:<br />

69 Dabei ist 1 = PH der Projektor, der jeden Hilbertvektor auf sich selbst projiziert.<br />

70 vgl. Peres (1995)<br />

117


1000 1000 1000 1000 -1111 -1111 1-111 11-11 01-10 001-1 1010<br />

0100 0100 0010 0001 1-111 11-11 11-11 111-1 100-1 1-100 0101<br />

0010 0011 0101 0110 11-11 1010 0110 0011 1111 1111 11-1-1<br />

0001 001-1 010-1 01-10 111-1 010-1 100-1 1-100 1-1-11 11-1-1 1-1-11<br />

Die 44 Einträge der Tabelle geben die Komponenten von 4-dimensionalen<br />

Vektoren an, die aus einem Satz von insgesamt 20 Vektoren stammen. Jede Spalte<br />

enthält vier paarweise orthogonale Vektoren, wie man leicht nachrechnen kann.<br />

Auf die Normierung wurde dabei bequemlichkeitshalber verzichtet.<br />

Jedem Vektor entspricht nacheindeutig ein zugehöriger Projektionsoperator. In<br />

jeder Spalte muss nun genau ein Vektor markiert werden (zum Beispiel durch eine<br />

Farbe), um die Bewertung des zugehörigen Projektors mit 1 anzudeuten. Die nicht<br />

markierten Vektoren werden mit 0 bewertet. Da 11 Spalten vorhanden sind,<br />

müssen genau 11 Felder markiert werden – eine ungerade Anzahl. Andererseits<br />

kann man leicht nachprüfen, dass jeder der 20 Vektoren entweder zweimal oder<br />

viermal in der Tabelle auftritt. Jedesmal, wenn wir einen Vektor in einer Spalte<br />

markieren, müssen wir denselben Vektor in jeder anderen Spalte markieren, in der<br />

auftritt. Daraus folgt aber, dass die Gesamtzahl der Markierungen eine gerade Zahl<br />

ergeben muss – ein Widerspruch. Dieses Gegenbeispiel zeigt, dass es nicht<br />

möglich ist, eine konsistente KS-Bewertung für alle Operatoren (Projektoren) zu<br />

definieren. �<br />

Das Kochen-Specker-Theorem ist von grundlegender Bedeutung für die sog.<br />

Quantenlogik. Wir haben oben gesehen, dass jedem abgeschlossenen Unterraum<br />

A des Hilbertraums umkehrbar eindeutig eine Aussage über mögliche<br />

Messergebnisse an dem zugrunde liegenden Quantensystem entspricht. Wir<br />

können dabei die Eigenwerte (1 oder 0) des zugehörigen Projektors PA als<br />

Wahrheitswerte (1 = wahr und 0 = falsch) interpretieren, d. h. eine Aussage A ist<br />

wahr in einem Zustand �, wenn � ein Eigenzustand des Projektors PA zum<br />

Eigenwert 1 ist, d.h. wenn � � A ist. Umgekehrt ist A falsch im Zustand �, wenn<br />

� Eigenzustand des Projektors mit dem Eigenwert 0 ist, d.h. wenn � � A � ist. Das<br />

Kochen-Specker-Theorem zeigt nun, dass es prinzipiell nicht möglich ist, allen<br />

Aussagen über ein Quantensystem Wahrheitswerte (1 = wahr und 0 = falsch) im<br />

Einklang mit den Regeln der klassischen, zweiwertigen Logik zuzuordnen:<br />

Satz: Sei S ein Quantensystem mit einem mindestens dreidimensionalen<br />

Hilbertraum H. Dann gibt es keinen Homomorphismus vom Projektorverband<br />

P(H) des Systems in den Booleschen Verband B2 = �0,1�der klassischen<br />

Wahrheitswerte.<br />

118


Beweis: Ein solcher Homomorphismus wäre eine Abbildung v : P(H) � �0,1�mit<br />

folgenden Eigenschaften:<br />

(1) v(PH) = 1<br />

(2) Wenn A � B ist, dann ist v(PA) � v(PB)<br />

(3) v( P �<br />

A ) = 1 gdw v(PA) = 0<br />

Sei nun P1,…,Pn ein n-tupel von paarweise orthogonalen Projektoren. Dann muss<br />

genau einer der Projektoren den Wahrheitswert v(Pi) = 1 erhalten, während v(Pk) =<br />

0 für alle k � i gilt. Wir haben aber beim Beweis des KS-Theorems gesehen, dass<br />

eine solche Zuordnung von Wahrheitswerten zu Projektoren nicht möglich ist. �<br />

Tatsächlich ist das Kochen-Specker-Theorem eine unmittelbare Folgerung aus<br />

einem allgemeineren Prinzip, nämlich aus dem Satz von Gleason. Dieser Satz ist<br />

grundlegend für den Wahrscheinlichkeitsbegriff der Quantentheorie.<br />

Die Überlegungen im vorhergehenden Kapitel zeigen, dass man innerhalb der<br />

Quantenphysik einen verallgemeinerten Wahrscheinlichkeitsbegriff definieren<br />

kann, den wir im folgenden kurz als „Quantenwahrscheinlichkeit“ bezeichnen<br />

wollen:<br />

Definition: Sei S ein Quantensystem und H der Hilbertraum des Systems. Eine<br />

Abbildung p: C(H) � �0,1� ist ein (Quanten-) Wahrscheinlichkeitsmaß auf dem<br />

Ereignisverband des Systems, wenn folgende Bedingungen erfüllt sind:<br />

W1 0 � p(E) � 1 für alle E � C(H)<br />

W2 p(H) = 1<br />

W3 Für jede Folge (Ei)i�� von möglichen Ereignissen aus C(H) mit Ei � Ej für<br />

� �N<br />

i<br />

alle i � j gilt: p(sup i�N Ei) = p ( E ) .<br />

i<br />

Die Bedingungen W1 bis W3 entsprechen natürlich den Kolmogoroff-Axiomen für<br />

gewöhnliche Wahrscheinlichkeitsmaße. 71 Die dritte Bedingung tritt an die Stelle<br />

der �-Additivität. Anstelle von paarweise disjunkten Ereignissen betrachten wir<br />

hier paarweise orthogonale Unterräume; sie repräsentieren komplementäre<br />

Ereignisse innerhalb der Quantenphysik.<br />

Man kann leicht zeigen, dass jedem möglichen Quantenzustand � � H ein<br />

Quanten-W-Maß entspricht. Dazu definieren wir p� : C(H) � �0,1� durch die<br />

Vorschrift<br />

71 vgl. oben, Abschnitt 5<br />

p�(E) = < � � PE� ><br />

119


Offenbar gilt dann (W1) p�(E) = < � � PE� > � 1 für alle Unterräume E und (W2)<br />

p�(H) = < � � PH� > = 1. Zum Nachweis von (W3) sei Ei, i = 1, 2, 3, ... eine Folge<br />

von paarweise orthogonalen Ereignissen mit den zugehörigen Projektoren Pi.<br />

n<br />

�<br />

i �1<br />

Dann ist Sn= P i<br />

eine monoton nicht-fallende Folge von Projektoren mit den<br />

Unterräumen sup(E1,...,En). Nach einem Theorem der Funktionalanalysis<br />

konvergieren die Projektoren stark gegen einen Projektor P, so dass<br />

lim n�� ( Sn � P)(<br />

�) � 0für alle Hilbertvektoren � gilt. Der zugehörige<br />

Unterraum ist E = sup( Ei / i � 1 ) . Somit gilt für die zugehörigen<br />

Wahrscheinlichkeitsmaße die Gleichung<br />

n<br />

� � �<br />

p ( E) �� � � P� ��� � � lim P � �� lim � � � P � � � p ( E )<br />

� n�� n n�� n<br />

�<br />

i �1<br />

i �1 i �1<br />

wie zu beweisen war. �<br />

Sei nun �1,..., �n,.... eine abzählbare Folge von normierten Hilbertvektoren. Man<br />

kann leicht zeigen, dass mit p� ,..., p<br />

1 � ,...auch jede Linearkombination p =<br />

n<br />

�<br />

i � p<br />

�<br />

�<br />

i �1<br />

i<br />

ein Quanten-Wahrscheinlichkeitsmaß bildet, wenn die Koeffizienten �i<br />

nicht-negative reelle Zahlen sind, so dass �� i � 1 gilt. Die Zahlen �i kann man<br />

i �1<br />

als statistische Gewichte für die Zustände �i deuten, also als die<br />

Wahrscheinlichkeit dafür, dass in einem Ensemble gleichartiger Teilchen der<br />

Zustand �i vorliegt. 72 Man spricht daher auch von einer „konvexen Mischung“ der<br />

entsprechenden Zustände.<br />

Ein bekanntes Theorem von Gleason (1957) zeigt, dass alle Quanten-<br />

Wahrscheinlichkeitsmaße als konvexe Mischungen von reinen Zuständen<br />

darstellbar sind. Sei dazu A ein beschränkter, selbstadjungierter Operator, so dass<br />

< A � � � > � 0 für alle Hilbertvektoren � � H gilt. Ferner sei ��i� i�N eine<br />

�<br />

� A i<br />

i �1<br />

Hilbert-Basis. Wenn � � � � � einen Wert < � besitzt, dann ist Sp(A) =<br />

�<br />

� A i<br />

i �1<br />

i<br />

� � � � � die Spur von A, wobei der numerische Wert unabhängig von der<br />

i<br />

Wahl der Basisvektoren ist. Insbesondere gilt für Projektoren P� auf den<br />

72 Diese Interpretation geht auf John v. Neumann (1932) zurück; vgl. Kap. 4 § 1.<br />

�<br />

n<br />

�<br />

120<br />

i


eindimensionalen Unterraum ��� = � �� � � � C � die Gleichung Sp(P�) = 1.<br />

Ganz allgemein wird ein beschränkter, selbstadjungierter Operator U mit 0 � U als<br />

statistischer Operator bezeichnet, wenn Sp(U) = 1 ist. Wenn beispielsweise U =<br />

�<br />

i � P<br />

�<br />

�<br />

i �1<br />

i<br />

eine Linearkombination von Projektoren mit nicht-negativen<br />

�<br />

Koeffizienten ist, so dass �� i � 1gilt, dann ist Sp(U) = �<br />

i<br />

Sp( P�<br />

) = �<br />

i i =<br />

i �1<br />

1, d.h. U ist ein statistischer Operator.<br />

Satz von Gleason: Sei S ein Quantensystem mit einem mindestens<br />

dreidimensionalen Zustandsraum H. Eine Abbildung p: C(H) � �0,1� ist genau<br />

dann ein Quanten-Wahrscheinlichkeitsmaß, wenn es einen statistischen Operator<br />

U gibt, so dass für jedes Ereignis E � C(H) gilt:<br />

p(E) = Sp(UPE)<br />

Beweisidee: Der Beweis ist relativ langwierig, daher beschränken wir uns auf eine<br />

kurze Skizze der wichtigsten Beweisschritte: (1) Sei Hn die Gesamtheit aller<br />

Einheitsvektoren im Hilbertraum. Zu jedem Wahrscheinlichkeitsmaß p auf dem<br />

Verband der abgeschlossenen Unterräume gehört eindeutig eine Funktion fp : Hn<br />

� R, die jedem Einheitsvektor eine reelle Zahl zuordnet, so dass fp(�) = p(���)<br />

� i<br />

für alle Vektoren � � Hn und ( ) �1<br />

p<br />

i<br />

�<br />

�<br />

i �1<br />

�<br />

�<br />

i �1<br />

f � für jede Orthonormalbasis � � �<br />

i i�1<br />

121<br />

� gilt.<br />

Dabei ist ��� der vom Einheitsvektor � aufgespannte eindimensionale Unterraum<br />

von H. (2) Man kann zeigen 73 , dass zu jeder Funktion fp ein beschränkter selbstadjungierter<br />

Operator U mit fp(�) = < U� � � > für alle � � Hn existiert. (3) Für<br />

jedes Ereignis E � C(H) gilt dann p(E) = Sp(UPE): Denn sei ��i� eine<br />

Orthonormalbasis, so dass für alle i entweder �i � E oder �i � E gilt. Dann ist<br />

p(E) = � p(<br />

�� i � ) � ��<br />

U�i<br />

�i<br />

�� ��<br />

UPE�<br />

i �i<br />

�� Sp(<br />

UPE<br />

)<br />

� �E<br />

i<br />

� �E<br />

i<br />

Dabei haben wir im vorletzten Schritt den Umstand benutzt, dass PE� i � �i<br />

ist,<br />

falls �i � E ist und P � � 0 , wenn �i � E gilt. �<br />

E<br />

i<br />

Gleasons Theorem besagt, dass jede Quantenwahrscheinlichkeit als konvexe<br />

Mischung aus reinen Hilbertzuständen erzeugt werden kann. Das bedeutet unter<br />

73 Dieser Nachweis ist der anspruchsvolle Teil des Beweises, den wir hier übergehen.<br />

i


anderem, dass es keine „überreinen“ oder „streuungsfreien“ Zustände gibt, die<br />

eine eindeutige Vorhersage über die Werte aller Observablen ermöglichen würden.<br />

Man kann nun leicht erkennen, dass das Kochen-Specker-Theorem eine<br />

unmittelbare Folgerung aus dem Satz von Gleason ist, weil jede nicht-triviale KS-<br />

Funktion ein Quanten-W-Maß erzeugen würde, das nicht als konvexe Mischung<br />

aus reinen Zuständen definiert werden könnte. Denn angenommen, v wäre eine<br />

nicht-triviale KS-Funktion, die die Summen- und Produktregel erfüllt. Wir<br />

definieren ein zugehöriges W-Maß pv: C(H) � �0,1� durch die Vorschrift<br />

pv(E) = v(PE) für alle Ereignisse E � C(H)<br />

Man kann leicht zeigen, dass pv tatsächlich ein Quanten-W-Maß ist, also die<br />

Axiome W1 bis W3 erfüllt. 74 Wir erhalten auf diese Weise ein Quanten-W-Maß,<br />

das nur die Werte 0 oder 1 annehmen kann – im Widerspruch zu Gleasons<br />

Theorem, wonach jedes Q-Maß eine konvexe Mischung von reinen Zuständen<br />

darstellt, die bekanntlich niemals streuungsfrei sind.<br />

74 Wegen der Idempotenz PEPE = PE und der Produktregel ist nämlich v(PE) = v(PE) 2 ,<br />

d.h. v(PE) muss gleich 0 oder gleich 1 sein. Somit gilt trivialerweise 0 � pv(E) � 1, also<br />

W1. Ferner ist pv(H) = v(1) = 1, wenn v eine nicht-triviale KS-Funktion ist, also gilt auch<br />

W2. Zum Nachweis der �-Additivität sei (Ei)i�N eine abzählbare Folge von möglichen<br />

Ereignissen mit Ei � Ej für alle i � j . Dann gilt wegen der Summenregel<br />

pv(sup i�N Ei) = v(� P E ) =<br />

i �v ( PE<br />

) = p<br />

i v ( Ei<br />

) , also W3.<br />

i<br />

i<br />

� �N<br />

i<br />

122


15. Kausalität und Lokalität: Die Bellsche Ungleichung<br />

In Bearbeitung …<br />

123


Anhang: Einige mathematische <strong>Grundlagen</strong><br />

1. Ereignisalgebra<br />

Definition: Sei � eine nicht-leere Menge und A � Pot(�) eine Familie von<br />

Teilmengen aus �. A ist eine �-Algebra auf � genau dann, wenn folgende drei<br />

Bedingungen erfüllt sind:<br />

(1) � � A<br />

(2) Wenn A � A ist, dann ist auch das Komplement A c � A. 75<br />

(3) Wenn (An)n�� eine abzählbare Folge von Teilmengen An � A ist, dann ist auch<br />

die Vereinigung<br />

�<br />

U An n�0<br />

�A<br />

Mit anderen Worten: Eine �-Algebra ist abgeschlossen unter<br />

Komplementbildungen und abzählbaren Vereinigungen.<br />

Beispiel 1: Sei A* = Pot(�) die Familie aller Teilmengen von �. Dann ist A* eine<br />

�-Algebra auf �. Denn (1) ist � � �. (2) Mit jeder Teilmenge A � � ist natürlich<br />

auch A c � �. (3) Wenn (An)n�� eine Folge von Teilmengen mit An � �, für alle n �<br />

0 ist, dann ist auch die Vereinigung der An eine Teilmenge von �.<br />

Beispiel 2: Sei A0 = ��, ��. Dann ist A0 eine �-Algebra auf �, denn (1) ist<br />

definitionsgemäß � � A0. (2) A0 ist abgeschlossen unter Komplementbildung,<br />

denn � c = � und � c = �. (3) A0 ist abgeschlossen unter abzählbaren<br />

Vereinigungen. Denn wenn (An)n�� eine Folge von Teilmengen aus ist, dann gilt<br />

für alle n � 0 entweder An = � oder An = �. Somit gilt auch für die Vereinigung A<br />

= � An entweder A = �, oder A = �. Der erste Fall tritt ein, wenn alle An = �<br />

sind. Der zweite Fall tritt ein, wenn mindestens ein An = � ist.<br />

Beispiel 3: Sei A eine beliebige Teilmenge von �. Dann ist A = � �, A, A c , � �<br />

eine �-Algebra auf �. Der Beweis ist einfach zu überführen und bleibt dem Leser<br />

als Übungsaufgabe überlassen.<br />

75 Das Komplement von A bzgl. � ist definiert als A c = � � � � / � � A �.<br />

124


Die vorhergehenden Beispiele zeigen, dass man im Allgemeinen verschiedene �-<br />

Algebren über ein- und derselben Trägermenge � konstruieren kann. In den<br />

angeführten Beispielen gilt<br />

A0 � A � A*.<br />

Ganz allgemein wird eine Algebra A´ als Verfeinerung von A bezeichnet (und A<br />

als Vergröberung von A´), wenn A � A´ gilt. In jedem Fall ist A* = Pot(�) die<br />

feinste und A0 = ��, �� die gröbste �-Algebra auf �.<br />

Eine �-Algebra ist definitionsgemäß abgeschlossen unter Komplementbildungen<br />

und abzählbaren Vereinigungen. Man kann leicht zeigen, dass die Algebra dann<br />

auch abgeschlossen unter abzählbaren Durchschnitten sein muss:<br />

Satz 1: Sei A � Pot(�) eine beliebige �-Algebra auf �. Dann gilt:<br />

(1) � � A.<br />

(2) Wenn (An)n�� eine abzählbare Folge von Teilmengen mit An � A, für alle n � 0<br />

ist, dann ist auch die Schnittmenge �n�0 An � A.<br />

Beweis: (1) Nach Voraussetzung gilt � � A. Da A abgeschlossen unter<br />

Komplementbildungen ist, muss dann auch � c = � in A sein. (2) Nach den de<br />

Morganschen Regeln in der Mengenlehre ist die Schnittmenge � An = �� (An) c � c . Da die<br />

Algebra abgeschlossen unter Komplementbildungen und abzählbaren Vereinigungen ist,<br />

muss daher auch � An � A sein.<br />

Satz 2: Wenn (Ai)i�J eine Familie von �-Algebren auf � ist, dann ist auch die<br />

Schnittmenge A = � i�J Ai eine �-Algebra auf �.<br />

Beweis: Definitionsgemäß gilt A � A = � i�J Ai genau dann, wenn A � Ai für alle i � J<br />

gilt. Nach Voraussetzung ist jedes Ai eine �-Algebra auf �. Somit gilt (1) � � Ai für alle<br />

i � J. (2) Wenn wenn A � Ai für alle i � J gilt, dann gilt auch A c � Ai für alle i � J. (3)<br />

Wenn An � Ai für alle n � 0 und alle i � J gilt, dann gilt auch A = � An � Ai für alle i �<br />

J.<br />

Definition: Sei E � Pot(�) eine beliebige Familie von Teilmengen aus �. (E<br />

muss dabei keine �-Algebra sein!). Dann ist<br />

A(E) = � � Ai / E � Ai �<br />

125


wieder eine �-Algebra auf �. Sie wird als die von E erzeugte �-Algebra<br />

bezeichnet. Die Menge E selbst wird als Erzeuger von A = A(E) bezeichnet. A(E)<br />

ist die kleinste �-Algebra auf �, die alle Elemente von E enthält.<br />

Borelmengen: Im folgenden sei � = R (R = die Menge der reellen Zahlen). Unter<br />

einem offenen Intervall J = (a,b) mit a, b � R und a < b versteht man die Menge<br />

aller reellen Zahlen zwischen a und b, wobei die „Eckpunkte“ a und b selbst<br />

ausgeschlossen sind, d.h. (a,b) = � x � R / a < x < b �. Dagegen sind beim<br />

abgeschlossenen Intervall �a,b� = � x � R / a � x � b � die Endpunkte mit<br />

eingeschlossen. Entsprechend definiert man die halboffenen Intervalle<br />

(a,b� = � x � R / a < x � b � und �a,b) = � x � R / a � x < b �, sowie die<br />

uneigentlichen Intervalle (-�, b) = � x � R / x < b �, (-�, b� = � x � R / x � b �.<br />

Sei nun B(R) = A(�(-�, b� / b � R �) die kleinste �-Algebra auf R, die alle<br />

halboffenen Intervalle (-�, b� mit b � R enthält. B(R) wird auch als die Familie<br />

aller Borelmengen in R bezeichnet. Man kann zeigen, dass alle offenen und<br />

abgeschlossenen Intervalle (a,b) bzw. �a,b� in B(R) enthalten sind. Darüberhinaus<br />

sind auch die halboffenen Intervalle �a,b) und (a,b�, sowie die uneigentlichen<br />

Intervalle (-�, a), (- �, a�, �a, +�), (a, +�) sowie alle Einermengen � x � mit x �<br />

R in B(R) enthalten.<br />

Den Beweis dieser Behauptungen überlassen wir dem Leser als Übungaufgabe.<br />

Auf analoge Weise kann man eine �-Algebra B(R n ) auf R n für alle n � 1<br />

definieren, indem man als Ausgangspunkt die halboffenen „Intervalle“ der Form<br />

(-�, b1� ��� (-�, bn� wählt. Die Elemente B � B(R n ) werden ebenfalls als<br />

Borelmengen bezeichnet.<br />

Definition: Unter einem (endlichen) Maß � auf einem Messraum (�, A) versteht<br />

man eine Abbildung �: A � R mit folgenden Eigenschaften:<br />

(1) �(�) = 0.<br />

(2) �(A) � 0 für alle A � A.<br />

(3) Wenn (An)n�� eine abzählbare Folge von paarweise disjunkten Teilmengen An<br />

� A ist, dann ist<br />

�<br />

U<br />

�( An ) � � �(<br />

An<br />

)<br />

n�0<br />

n�0<br />

Die letzte Eigenschaft wird auch als �-Additivität bezeichnet. Ein geordnetes Paar<br />

(�, A), das aus einer Trägermenge � und einer �-Algebra auf � besteht, wird als<br />

Messraum bezeichnet. Ein geordnetes Tripel (�, A, �), das zusätzlich noch ein<br />

�<br />

126


Maß �: A � R enthält, wird als Maßraum bezeichnet. Wichtige Anwendungen<br />

für den Maßbegriff sind<br />

� Längenmaße,<br />

� Flächenmaße und<br />

� Volumenmaße in der Geometrie, sowie<br />

� Wahrscheinlichkeitsmaße<br />

Beispiel: Sei R wieder die Menge der reellen Zahlen und B(R) die Familie aller<br />

Borelmengen auf R. Man kann zeigen, dass es genau ein Maß �: B(R) � R gibt,<br />

das jedem offenen Intervall J = (a,b) die Länge �(J) = b – a zuordnet. � wird als<br />

Lebesgue-Maß auf B(R) bezeichnet. Es kann anschaulich als Längenmaß<br />

interpretiert werden, weil der Abstand b – a gerade der Länge des offenen<br />

Intervalls (a,b) entspricht. Auf analoge Weise kann man Flächenmaße und<br />

Volumenmaße � n : B(R n ) � R für n � 2 definieren, die ebenfalls als Lebesgue-<br />

Maße bezeichnet werden.<br />

2. Messbare Abbildungen<br />

Definition: Im folgenden seien zwei Meßräume (�, A) und (�´, A´) gegeben.<br />

Eine Abbildung X: � � �´ heißt A-A´-messbar genau dann, wenn das Urbild<br />

X -1 (A´) = � � � � / X(�) � A´� einer messbaren Menge A´� A´ stets eine<br />

messbare Menge in A ist, d.h. wenn für alle A´� A´ gilt: X -1 (A´) � A. Wir<br />

verwenden gelegentlich auch die Schreibweise<br />

X: (�, A) � (�´, A´),<br />

um anzudeuten, dass X eine A-A´-messbare Abbildung von � in �´ ist.<br />

Anmerkung 1: Im Kontext der Wahrscheinlichkeitstheorie interpretieren wir<br />

inhaltlich � als die Menge aller möglichen Ergebnisse eines Zufallsexperiments<br />

und A als Menge aller möglichen Ereignisse, die bei dem Experiment eintreten<br />

können. Der Wertebereich �´ gibt dann die Menge aller möglichen Werte, die die<br />

Variable X annehmen kann.<br />

Anmerkung 2: Ein wichtiger Spezialfall sind reellwertige Variablen X: � � R.<br />

Wenn �´ = R und A´ = B(R) ist, dann wird X auch kurz als A-messbare<br />

Abbildung bezeichnet, sofern X -1 (A´) � A für alle Borelmengen A´� B(R) gilt.<br />

Falls darüberhinaus auch � = R und A = B(R) ist, dann wird X als Borel-messbare<br />

Funktion bezeichnet. Alle stetigen Funktionen f: R � R sind Borel-messbar.<br />

127


Wir verwenden die Schreibweise � X < a � als Abkürzung für die Menge<br />

� � � � / X (�) < a �. Auf analoge Weise definieren wir die Abkürzungen<br />

� X � a �, � X > a �, � X � a �, � X = a �, usw. Man kann zeigen, dass eine<br />

reellwertige Funktion X: � � R genau dann A-messbar ist, wenn die Bedingung<br />

� X < a � � A für alle a � R erfüllt ist. Wenn X und Y messbare reellwertige<br />

Funktionen sind, dann sind auch die Funktionen X + Y, X – Y, X�Y sowie aX Amessbare<br />

Funktionen.<br />

Indikatorvariablen: Sei (�, A) ein beliebiger Messraum. Für jede Teilmenge A �<br />

A definieren wir eine Indikatorvariable 1A: � � R durch die Vorschrift<br />

1A(�) = 1, falls � � A ist und 1A(�) = 0, sonst.<br />

1A ist offensichtlich eine A-messbare Abbildung. Im Kontext der<br />

Wahrscheinlichkeitstheorie deuten wir 1A als Zufallsvariable, die den Wert 1<br />

genau dann annimmt, wenn das Ereignis A eintritt und sonst den Wert 0.<br />

Verknüpfung von messbaren Funktionen: Wenn X eine A1-A2-messbare<br />

Abbildung X: (�1, A1) � (�2, A2) und Y eine A2-A3-messbare Abbildung<br />

Y: (�2, A2) � (�3, A3) ist, dann ist die Verknüpfung Z = Y o X eine A1-A3messbare<br />

Abbildung Z: (�1, A1) � (�3, A3). (Warum?)<br />

Bildmaße: Sei �: A � R ein Maß auf dem Messraum (�, A) und sei X: (�, A) �<br />

(�´, A´) eine A-A´-messbare Abbildung von � in �´. Dann wird durch die<br />

Abbildung X eindeutig ein Maß �X: A´ � R auf dem Messraum (�´, A´) induziert,<br />

das definiert ist durch die Bedingung<br />

�X(A´) = �(X -1 (A´)) = �� X � A´�<br />

für alle A´ � A´. �X wird auch als das von � und X erzeugte Bildmaß auf (�´, A´)<br />

bezeichnet. Man beachte, dass �X wohldefiniert ist, weil wegen der Messbarkeit<br />

von X das Urbild X -1 (A´) für jede messbare Menge A´ � A´ selbst wieder eine<br />

messbare Menge X -1 (A´) � A ist.<br />

Seien X und Y beliebige Funktionen, die auf ganz � definiert sind und �: A � R<br />

ein beliebiges Maß auf dem Messraum (�, A). Wir sagen, dass X und Y �-fast<br />

überall identisch sind (X =�-f.ü. Y), wenn die Gleichung X(�) = Y(�) für alle � � �<br />

bis auf eine Menge N � � vom Maß �(N) = 0 erfüllt ist. Allgemein sei � eine<br />

beliebige Aussage, so dass für alle � � � definiert ist, ob � für � gültig ist oder<br />

nicht. Wir sagen, dass � �-fast überall in � gültig ist, wenn die Aussage für alle �<br />

� � bis auf eine Menge N vom Maß �(N) = 0 gültig ist. Beispielsweise ist eine<br />

128


Funktion f: R � R �-fast überall stetig in � = R, wenn �: B(R) � R das<br />

Lebesgue-Maß auf B(R) ist und wenn f nur endlich viele Unstetigkeitsstellen<br />

besitzt.<br />

3. Erwartungswerte und Lebesgue-Integrale<br />

Aus der elementaren Analysis ist das Riemann-Integral für reellwertige<br />

Funktionen f: R � R bekannt. Für die Wahrscheinlichkeitstheorie benötigen wir<br />

einen allgemeineren Integralbegriff, der auf beliebige messbare Funktionen X: �<br />

� R anwendbar ist.<br />

Im folgenden sei daher X: (�, A) � (R, B(R)) eine A-messbare reellwertige<br />

Funktion und p: A � R ein Wahrscheinlichkeitsmaß auf dem Messraum (�, A).<br />

Wir definieren im folgenden das Integral<br />

Die Definition erfolgt in drei Schritten.<br />

E(X) = � X dp<br />

1. Schritt: Im ersten Schritt betrachten wir nur solche Funktionen X: � � R, die<br />

nur endlich viele verschiedene Werte x1,...,xn mit xi � 0 annehmen können. Solche<br />

Funktionen werden auch als Elementarfunktionen (oder: als Treppenfunktionen)<br />

bezeichnet. Wir definieren dann den Erwartungswert E(X) durch die Bedingung<br />

E( X ) = � X dp = xi � p( X� xi<br />

)<br />

Man erkennt unschwer, dass dies der üblichen Definition des Erwartungswerts für<br />

diskrete Variablen entspricht, die nur endlich viele mögliche Werte annehmen<br />

können.<br />

2. Schritt: Sei nun (Xn)n�0 eine isotone Folge von Elementarfunktionen und sei X<br />

= sup(Xn). Wir definieren nun den Erwartungswert von X durch die Bedingung<br />

Dieser Ausdruck ist wohldefiniert, da das Supremum der Integrale unabhängig von<br />

der Wahl der Funktionenfolge Xn ist. Man kann nämlich zeigen, dass für jede<br />

isotone Folge (X´n)n�0 von Elementarfunktionen mit sup(X´n) = sup(Xn) = X gilt,<br />

dass<br />

n<br />

�<br />

i�1<br />

� �<br />

E( X ) = X dp = sup X dp<br />

n<br />

129


sup � Xn dp = sup � X´n dp<br />

Darüberhinaus kann man zeigen, dass jede beliebige messbare, nicht-negative<br />

Funktion X: � � R als Supremum einer isotonen Folge von Elementarfunktionen<br />

dargestellt werden kann, d.h. für jede messbare, nicht-negative Abbildung X: � �<br />

R gibt es eine isotone Folge (Xn)n�0 von Elementarfunktionen mit X = sup(Xn).<br />

Somit können wir die oben angegebene Definition von E(X) auf beliebige<br />

messbare Funktionen anwenden, solange X keine negativen Werte x < 0 annimmt.<br />

3. Schritt: Im letzten Schritt wollen wir den Erwartungswert für beliebige<br />

messbare Funktionen definieren. Sei dazu X eine beliebige messbare Abbildung X:<br />

� � R. Wir zerlegen zunächst X gedanklich in einen Positivteil X + und in einen<br />

Negativteil X � , die folgendermaßen definiert sind: Für alle � � � sei X + (�) =<br />

X(�), falls X(�) � 0 ist, und X + (�) = 0, sonst. Ebenso definieren wir X � (�) =<br />

� X(�), falls X(�) < 0, und X � (�) = 0, sonst. Offenbar gilt dann X + � 0 und X � � 0,<br />

und X = X + � X � . Wir definieren nun den Erwartungswert<br />

E(X) = � X dp = � X + dp � � X � dp<br />

Somit ist nun das Integral für beliebige messbare Funktionen definiert.<br />

Bei den bisherigen Definitionen haben wir immer über den ganzen<br />

Möglichkeitsraum � integriert. Statt dessen können wir die Integration aber auch<br />

nur über eine messbare Teilmenge A � � ausführen. Sei dazu<br />

X: (�, A) � (R, B(R)) eine A-messbare reellwertige Funktion und und A � A.<br />

Wir definieren das auf A beschränkte Integral durch die Vorschrift:<br />

� X dp =<br />

A<br />

� X �1<br />

A dp<br />

Wenn insbesondere � = R, A = B(R) und A = (a,b) irgendein offenes Zahlenintervall mit<br />

b<br />

a, b �R und a < b ist, dann schreiben wir dafür auch X dp .<br />

Lebesgue-Integral und Riemann-Integral: Lebesgue-Integrale können nicht nur<br />

für Wahrscheinlichkeitsmaße definiert werden, sondern für beliebige Maße<br />

�: A � R auf der zugrundeliegenden �-Algebra. Dazu müssen wir nur das<br />

Symbol p in den vorhergehenden Definitionen und Gleichungen überall durch �<br />

ersetzen. Wir schreiben dann beispielsweise � X d� anstelle von � X dp und können<br />

ansonsten alle Aussagen unverändert übernehmen. Wir erhalten das gewöhnliche<br />

�<br />

a<br />

130


Riemann-Integral als Spezialfall, wenn wir � = R, A = B(R) und � = � wählen (�<br />

= das Lebesgue-Maß auf den Borelmengen). Sei nämlich f: R � R eine Borelmessbare<br />

und Riemann-integrierbare Funktion. Dann gilt der Satz<br />

Man sieht also, dass im Spezialfall � = � und � = R das Lebesgue-Integral mit<br />

dem Riemann-Integral übereinstimmt.<br />

Dichtefunktionen: Sei (�, A, �) ein Messraum und f: � � R eine A-messbare,<br />

nicht-negative Funktion (f � 0). Wir definieren eine Abbildung �: A � R durch<br />

die Festsetzung<br />

�(A) = �A f d�<br />

für alle A � A. Man kann leicht sehen, dass durch diese Abbildung wieder ein<br />

Maß auf (�, A) definiert wird. Unter den angegebenen Voraussetzungen wird f als<br />

Dichtefunktion für � bezüglich � bezeichnet. Die Dichtefunktion ist �-fast überall<br />

eindeutig bestimmt, d.h. wenn f´: � � R eine A-messbare, nicht-negative<br />

Funktion ist, die die Gleichung �(A) = �A f´ d� für alle für alle A � A erfüllt, dann<br />

gilt f = f´ �-fast überall in �. Ein Maß � heißt �-stetig, wenn jede �-Nullmenge<br />

auch eine �-Nullmenge ist, d.h. wenn �(A) = 0 � �(A) = 0 für alle A � A gilt.<br />

Ohne Beweis führen wir den folgenden wichtigen Satz an:<br />

Satz von Radon-Nikodym: Wenn � und � Maße auf (�, A) sind (wobei � �endlich<br />

ist), dann sind die folgenden Aussagen äquivalent:<br />

(1) � besitzt eine Dichte bezüglich �.<br />

(2) � ist �-stetig.<br />

4. Bedingte Erwartungen<br />

b<br />

�<br />

a<br />

f ( x) dx = f d�<br />

Satz 1: Sei Y: � � R eine reellwertige Zufallsvariable auf (�, A), die nichtnegativ<br />

oder integrierbar ist. Dann gibt es zu jeder Unteralgebra A0 � A eine<br />

nicht-negative bzw. integrierbare Zufallsvariable Y0: � � R, die A0–messbar ist<br />

und folgende Bedingung erfüllt:<br />

b<br />

�<br />

a<br />

131


� �<br />

Y dp =<br />

Y dp<br />

0<br />

A A<br />

für alle Ereignisse A � A0. Die Existenz der Variablen folgt aus dem Satz von<br />

Radon und Nikodym. Y0 ist fast überall eindeutig bestimmt, d.h. jede Variable Y´0,<br />

die die angegebene Gleichung für alle A � A0 erfüllt, ist p-fast überall identisch<br />

mit Y0. Jede Variable Y0 mit den angegebenen Eigenschaften wird als bedingte<br />

Erwartung von Y unter der Hypothese A0 bezeichnet. Wir schreiben dafür<br />

E(Y/A0) = Y0<br />

Die bedingte Erwartung ist somit nur p-fast sicher eindeutig bestimmt. Man<br />

spricht daher von verschiedenen, aber fast überall identischen Versionen der<br />

bedingten Erwartung.<br />

Wenn insbesondere A0 = A(X1,...,Xn) die kleinste Algebra ist, in der die Variablen<br />

X1,...,Xn messbar sind (Xi: � � �i), dann schreiben wir auch<br />

E(Y/ X1,...,Xn) = E(Y/A0)<br />

Die Variable E(Y/ X1,...,Xn) wird auch als Regression von Y auf X1,...,Xn<br />

bezeichnet. Die Variablen X1,...,Xn werden als Regressoren, Y als Regressand<br />

bezeichnet. Der folgende Satz hält einige wichtige Eigenschaften der bedingten<br />

Erwartung fest:<br />

Satz 2: Sei E(Y/A0) eine Version der bedingten Erwartung von Y in bezug auf A0.<br />

Dann gilt:<br />

(1) E(E(Y/A0)) = E(Y)<br />

(2) Wenn Y A0–messbar ist, dann gilt p-fast überall E(Y/A0) = Y. 76<br />

(3) Wenn X = Y p-fast überall gilt, dann ist auch E(X/A0) = E(Y/A0) p-fast überall.<br />

(4) Linearität: E(aX + bY/ A0) = a E(X/A0) + b E(Y/A0) p-fast überall.<br />

(5) Glättung: Wenn X und Y nicht-negative Zufallsvariablen und X A0–messbar<br />

ist, dann gilt: E(X�Y/ A0) = X�E(Y/A0) p-fast überall.<br />

In Analogie zur A0–bedingten Erwartung führen wir nun den Begiff der A0–<br />

bedingten Wahrscheinlichkeit ein durch die Gleichung<br />

p(A/ A0) = E(1A/A0) für alle A � A<br />

76 Insbesondere gilt dann p-fast überall E(Y/X) = Y, falls Y messbar in X ist.<br />

132


Definitionsgemäß ist p(A/ A0) eine Zufallsvariable (keine Zahl!). Die wichtigsten<br />

Eigenschaften der bedingten Wahrscheinlichkeit sind in dem folgenden Satz<br />

zusammengefasst:<br />

Satz 3: Sei A � A und p(A/ A0) die A0–bedingte Wahrscheinlichkeit von A unter<br />

der Hypothese A0. Dann gilt:<br />

(1) 0 � p(A/ A0) � 1 p-fast überall.<br />

(2) p(� / A0) = 0 und p(� / A0) = 1 p-fast überall.<br />

(3) Für jede abzählbare Folge (An)n�0 von paarweise disjunkten Ereignissen An �<br />

A gilt p-fast überall<br />

p( An / A0 ) � � p( An<br />

/ A0<br />

)<br />

n�0<br />

Daraus folgt nicht, dass die Funktion A �� p(A/ A0)(�) fast überall ein<br />

Wahrscheinlichkeitsmaß ist, da die angegebenen Eigenschaften (1)-(3) nicht<br />

garantieren, dass es eine p-Nullmenge N � � gibt, so dass die Bedingungen (1)-<br />

(3) für alle � � N simultan erfüllbar sind.<br />

5. Faktorisierung der bedingten Erwartung<br />

Das folgende Resultat wird in den nachfolgenden Überlegungen häufig verwendet.<br />

n�0<br />

Satz (Faktorisierungslemma): Sei Y: � � R eine reellwertige Zufallsvariable<br />

auf (�, A), die nicht-negativ oder integrierbar ist, und sei X: (�, A) � (�´, A´)<br />

eine A-A´-messbare Abbildung von � in �´. Dann existiert eine messbare<br />

Funktion<br />

f: �´ � R, so dass gilt<br />

(*) E(Y/X) = f(X)<br />

�<br />

U<br />

Dabei gilt : Jede Funktion f´: �´ � R, die die Bedingung (*) erfüllt, genügt der<br />

Gleichheit<br />

�<br />

� �<br />

f dpX �<br />

Y dp<br />

� �<br />

A� X �A� 133


für alle A´ � A´. Somit ist f pX-fast überall eindeutig bestimmt. Sei nun x � �X ein<br />

beliebiger Wert der Variablen X. Dann wird die Zahl<br />

E(Y/X=x) = f(x)<br />

als bedingter Erwartungswert von Y unter der Bedingung X=x bezeichnet. Ganz<br />

analog definieren wir die bedingte Wahrscheinlichkeit p(A/X=x) als den X=xbedingten<br />

Erwartungswert der Indikatorvariablen 1A, d.h.<br />

p(A/X=x) = E(1A /X=x)<br />

Der springende Punkt bei dieser Konstruktion ist folgender: Wenn p(X=x) > 0 ist,<br />

dann entspricht die bedingte Erwartung p(A/X=x) = E(1A /X=x) genau der<br />

gewöhnlichen bedingten Wahrscheinlichkeit p(A/X=x) in der elementaren<br />

Wahrscheinlichkeitstheorie. Daher verwenden wir dieselben Symbole für beide<br />

Begriffe. Ebenso entspricht der Wert E(Y/X=x) dem bedingten Erwartungswert in<br />

der elementaren Theorie. Im Unterschied zur elementaren Definition besitzt die<br />

bedingte Erwartung E(Y/X=x) bzw. p(A/X=x) = E(1A /X=x) auch dann noch einen<br />

wohldefinierten Wert E(Y/X=x) = f(x) bzw. p(A/X=x) = g(x), wenn p(X=x) = 0 ist.<br />

Damit werden wir in die Lage versetzt, auch dann noch über bedingte<br />

Wahrscheinlichkeiten und bedingte Erwartungswerte zu reden, wenn zum Beispiel<br />

X eine (Lebesgue-) stetige Variable ist, so dass p(X=x) = 0 für alle möglichen<br />

Werte x � �X gilt.<br />

134


Literaturangaben<br />

A. I. Arnold: Mathematical Methods of Classical Mechanics, New York 1989 2<br />

H. Bauer: Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, Berlin/New<br />

York 1978 3<br />

K. Baumann, R. U. Sexl: Die Deutungen der Quantentheorie. Braunschweig 1984<br />

R. Becker: Theorie der Wärme, Heidelberg 1985<br />

J. S. Bell: On the Einstein-Podolsky-Rosen paradox, Physics 1, S. 195 – 200, 1964<br />

J. S. Bell: On the Problem of Hidden Variables in Quantum Mechanics, Reviews<br />

of Modern Physics 38, 1966, 447 – 452, wiederabgedruckt in: J. S. Bell:<br />

Speakable and Unspeakable in Quantum Mechanics, Cambridge 1987<br />

G. Birkhoff, J. v. Neumann: The Logic of Quantum Mechanics, Ann. of<br />

Mathematics 37, 1936, 823 - 843<br />

R. L. Bishop, S. I. Goldberg: Tensor Analysis on Manifolds, MacMillan N.Y. 1968<br />

D. Bohm: A suggested interpretation of the quantum theory in terms of “hidden”<br />

variables, Teil I und II, Phys. Rev. 85, S. 166 ff., 1952, deutsche<br />

Übersetzung in: K. Baumann, R. U. Sexl, S. 163 - 192<br />

R. Carnap: Einführung in die Philosophie der Naturwissenschaft, München 1974<br />

N. Cartwright: Nature´s Capacities and Their Measurement, Oxford 1989<br />

D. W. Cohen: An Introduction to Hilbert Space and Quantum Logic, Berlin 1989<br />

M. L. Dalla Chiara: Quantum Logic, in D. Gabbay, F. Guenthner (Hrsg.):<br />

Handbook of Philosophical Logic, Vol. III, Dordrecht 1986<br />

P. Davies: Prinzip Chaos, München 1988<br />

W. Davis: „Probabilistic Theories of Causation“, in: J. Fetzer (ed.) 1988<br />

B. d´Espagnat: On Physics and Philosophy, Princeton 2006<br />

D. Dürr: Bohmsche Mechanik als Grundlage der Quantenmechanik, Berlin 2001<br />

J. Earman: A Primer on Determinism, Dordrecht 1986<br />

G. Ernst: Die Zunahme der Entropie. Eine Fallstudie zum Problem nomologischer<br />

Reduktion, Paderborn 2003<br />

L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz: Statistik. Der Weg zur Datenanalyse,<br />

Berlin 1999<br />

J. Fetzer (Hrsg.): Probability and Causality, Dordrecht 1988<br />

R. Fisher: The Design of Experiments, Edinburgh 1951<br />

R. Fisher: Smoking. The Cancer Controversy, Edinburgh 1959<br />

M. Friedman: Foundations of Space-Time Theories, Princeton 1983<br />

A. M. Gleason: Measures on the Closed Subspaces of a Hilbert-Space, Journal of<br />

Math. and Mechanics 6, 1957, 447-452<br />

C. Glymour, Scheines, Spirtes: Causation, Prediction and Search, Cambridge<br />

2000<br />

H. Goldstein: Klassische Mechanik, Wiesbaden 1987<br />

C. G. Hempel: Aspekte wissenschaftlicher Erklärung, Berlin 1977<br />

D. Hume: A treatise on human nature, ed. by L. A. Selby-Bigge, Oxford 1988<br />

135


M. Jammer: The Philosophy of Quantum Mechanics, New York 1974<br />

J. M. Jauch: Foundations of Quantum Mechanics, Reading Mass. 1973<br />

S. Kochen, E. P. Specker: The Problem of Hidden Variables in Quantum<br />

Mechanics, J. of Math. and Mech. 17, 1967, 59-87<br />

L. D. Landau, E. M. Lifschitz: Lehrbuch der theoretischen Physik, 3 Bände, Berlin<br />

1987<br />

P. S. de Laplace: A Philosophical Essay on Probabilities, New York 1951<br />

B. Lauth, J. Sareiter: Wissenschaftliche Erkenntnis. Eine ideengeschichtliche<br />

Einführung in die Wissenschaftstheorie, Paderborn 2002<br />

B. Lauth: Transtheoretical Strutcures and Deterministic Models, Synthese 130,<br />

2002, 163 - 172<br />

D. Lewis: Counterfactuals, Cambridge 1973<br />

D. Lewis: „Causation“, Journal of Philosophy 70, 1973, 556-572<br />

G. <strong>Ludwig</strong>: Einführung in die <strong>Grundlagen</strong> der Theoretischen Physik, 3 Bände,<br />

Braunschweig 1976<br />

M. C. Mackey: Time´s Arrow: The Origin of Thermodynamic Behavior, New York<br />

1992<br />

J. L. Mackie: The cement of the universe: A study of causation, Oxford 1974<br />

A. Messiah: Quantenmechanik, 2 Bde. Berlin 1991<br />

R. Montague: Deterministic Theories, wiederabgedruckt in R. Montague: Formal<br />

Philosophy, ed. by R. Thomason, New Haven 1974<br />

J. v. Neumann: <strong>Mathematische</strong> <strong>Grundlagen</strong> der Quantenmechanik, Berlin 1932<br />

M. A. Nielsen, I. L. Chuang: Quantum Computation and Quantum Information,<br />

Cambrigde 2000<br />

J. Pearl: Probabilistic Reasoning in Intelligent Systems, San Mateo, CA. 1988<br />

J. Pearl: Causality. Models, Reasoning, and Inference, Cambridge 2000<br />

O. Penrose: Foundations of Statistical Mechanics, New York 2005<br />

A. Peres: Quantum Theory: Concepts and Methods, Dordrecht 1995<br />

K. R. Popper: The Open Universe. An Argument for Indeterminism, London 1982<br />

E. Prugovecki: Quantum Mechanics in Hilbert Space, New York 1981<br />

H. Reichenbach: The direction of time, Berkeley 1971<br />

B. Russell: On the notion of cause, with applications to the free-will problem, in<br />

H. Feigl, M. Brodbeck (eds.): Readings in the Philosophy of Science, New<br />

York 1953, 387-407<br />

R. K. Sachs, H. Wu: General Relativity for Mathematicians, Berlin 1977<br />

W. C. Salmon: Probabilistic Causality, Pacific Philos. Quarterly 61, 1980, 50 - 74<br />

W. C. Salmon: Scientific Explanation and the Causal Structure of the World,<br />

Princeton 1984.<br />

F. Schwabl: Statistische Mechanik, Berlin 2006<br />

C. Shannon, W. Weaver: The Mathematical Theory of Communication, Urbana Ill.<br />

1949<br />

E. Sober: „The priciple of the common cause“, in: J. Fetzer (ed.), 1988<br />

P. Spirtes, C. Glymour, R. Scheines: Causation, Prediction and Search, New York<br />

136


1993<br />

W. Spohn: Stochastic Independence, Causal Independence, and Shieldability,<br />

Journal of Phil. Logic 9, 1980, 73 – 99<br />

W. Spohn: „Deterministic and probabilistic reasons and causes“, in: C. G.<br />

Hempel, H. Putnam, W. K. Essler (eds.): Methodology, Epistemology and<br />

Philosophy of Science: Essays in Honour of Wolfgang Stegmüller on the<br />

occasion of his 60th birthday, Dordrecht 1983, 371-396<br />

W. Spohn: „Direct and indirect causes“, Topoi 9, 1990, 125-145<br />

W. Spohn: „On Reichenbach´s principle of the common cause“, in: W. Salmon, G.<br />

Walters (eds.): Proceedings of the First Pittsburgh-Konstanz Colloquium,<br />

1991<br />

W. Stegmüller: Probleme und Resultate der Wissenschaftstheorie und<br />

Analytischen Philosophie, Band I: Erklärung, Begründung, Kausalität,<br />

Berlin 1983<br />

R. Steyer: Theorie kausaler Regressionsmodelle, Stuttgart 1992<br />

P. Suppes: A Probabilistic Theory of Causality, Acta Philosophica Fennica,<br />

Amsterdam 1970<br />

Thomas von Aquin: Summa theologiae, in R. Busa (Hrsg.): S. Thomae Aquinatis<br />

Opera Omnia , Vol. 2 Stuttgart 1980<br />

V. S. Varadarajan: Geometry of Quantum Theory, D. van Nostrand Comp. 1968<br />

W. Walter: Gewöhnliche Differentialgleichungen, Berlin 1990<br />

137

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!