Einführung in die Medieninformatik 1 - TZI

Einführung in die 

Medieninformatik 1 

Wintersemester 2007/08 

Prof. Dr. Rainer Malaka, Digitale Medien Medieninformatik 1 1

Plan (vorläufig) 

31.10. Einführung 

7.11. Menschen: Wahrnehmung 

14.11. Menschen: Wahrnehmung 

21.11. Medien: Digitalisierung 

28.11. Medien: Bilder 

5.12. Medien: Kompression 

12.12. Medien: Texte und Typographie 

19.12. Medien: Audio: Grundlagen und Bearbeitung 

9.01. Menschen und Medien: Interaktion 

16.01. Web: Grundlagen + Techniken 

23.01. Medien: Video 

30.01. Zukunft Digitaler Medien, Zusammenfassung und Ausblick 

6.02. Abschluss-Event (ganztägig!) 


Einführung in die Medieninformatik 1 

Teil 5: Kompression 

Viele Folien Heinrich Hußmann (München) und ein paar 

von Jürgen Friedrich (Bremen) 

Vorlesung 

Wintersemester 2007/08 

Rainer Malaka 


Speicherbedarf multimedialer Information 

• Daten vom letzten Mal (Kodierung): 

– Bsp. Audio-Signale 

• Sprache, niedrige Qualität (Mono, 8 bit, 8 kHz): 64 kbit/s 

• CD-Qualität (Stereo, 16 bit, 44,1 kHz): 0,7 Mbit/s pro Kanal 

• Eine Minute Musik in CD-Qualität: 10,5 MByte 

– Bsp. Bilder (9x13cm mit 300 ppi = 1062x1536 Pixel) 

• Schwarz/weiß (1 bit Farbtiefe): ca. 200 kByte 

• TrueColor (24 bit Farbtiefe): 4,5 MByte 

– Bsp. Video (ohne Ton) 

• 720 x 525 Pixel, 25 Bilder/s, 16 bit Farbtiefe: 151,2 Mbit/s 

• 1280 x 720 Pixel, 60 Bilder/s, 24 bit Farbtiefe: 1,32 Gbit/s 


Downloadzeiten 

Format 

Sampling 

Rate 

Quantisierung 

Unkomprimierte 

Dateigröße [byte] 

(1 Minute) 

Downloadzeit 

bei 

56kb/s 

Downloadzeit 

bei 

1,5Mb/s 

Sprache/Tele 

fon 

8 KHz 

8 bit 

480.000 

Ca. 

1 min 8 s 

2,56 s 

CD (stereo) 

44,1 KHz 

16 bit pro 

Kanal 

10.584.000 

> 25 min 

ca. 56 s 

Video 

720 x 525 

Pixel, 25 

Bilder/s 

16 bit pro 

Pixel und 

Kanal 

1.144.584.000 

Ca. 

> 45 h 

Ca. 

101 min 

Sound: 

44,1 KHz 

Kompressionsverfahren können die Datenmengen wesentlich reduzieren 


Kompression 

• Definition 

– Form der Datenkodierung, die zu einer Reduzierung der Größe des 

Abbilds im Verhältnis zum Original führt (Eliminierung der Redundanz) 

– Ziel: Reduzierung der benötigten Ressourcen 

(Platzbedarfs auf einem Speichermedium bzw. Bandbreite eines 

Übertragungskanals) 

• Typen 

– Verlustfreie Kompression (Redundanzreduktion): 

Original kann vollständig wiederhergestellt werden 

– Verlustbehaftete Kompression (Irrelevanzreduktion): 

Original kann nur unvollständig wiederhergestellt werden 


Exkurs: Information und Repräsentation 

V = Menge von Werten (Interpretationen, Bedeutungen) 

R = Menge von Repräsentationen (Darstellungswerte) 

Abbildung 

I : R → V Interpretation 

Umkehrung zur Interpretation: Repräsentationsbeziehung 

I -1 : V → R 

V 

Klassische Beispiele: 

V = Zahlwerte, R = Binärzahlen 

V = Abbildungen, R = Programme 

I 

Hier betrachtete Beispiele: 

V = Text, Bilder, Klänge (z.B.) 

R = GIF-Datei, R = WAV-Daten, ... 

R 

(nach Broy: Informatik Teil I) 


Informationsverarbeitung 

• Information ist ein abstrakter Begriff. 

• Computer verarbeiten immer Repräsentationen. 

• Informationsverarbeitung ist Repräsentationsverarbeitung. 

• Medien sind spezielle Repräsentationen von Information. 

V 

I -1 

I 

R 

Transformation, Übertragung 


Semiotische Ebenen 

• Semiotik = Theorie der Zeichen und Symbole 

• Klassische Terminologie der Semiotik: Syntax, 

Semantik, Pragmatik 

Pragmatik (Wirkung) 

Sender 

Semantik (Bedeutung) 

Empfänger 

Syntax (Zeichen) 

Bezug zur traditionellen Informatik: 

Syntax = Repräsentationen (Menge R) 

Semantik = Informationsgehalt (Menge V) 

Pragmatik wird als irrelevant angesehen 


Semiotische Ebenen in der Medieninformatik 

Für Medien müssen alle semiotischen Ebenen betrachtet werden. 

– Z.B. Wirkung eines Textes abhängig von der grafischen Darstellungsform (Farbe, 

Größe, Platzierung) 

Pragmatik (Wirkung) 

Sender 

Semantik (Bedeutung) 

Syntax (Zeichen) 

Empfänger 

Kanal (Träger) 

Bemerkung: Für die technische Realisierung sind Eigenschaften des 

physikalischen Trägers der Repräsentation ebenfalls wesentlich. 

– Z.B. Speicherbedarf, Frequenzspektrum 


Stochastische Informationstheorie: Zeichenvorräte und Kodierung 

• Ein Zeichenvorrat ist eine endliche Menge von Zeichen. 

• Eine Nachricht (im Zeichenvorrat A) ist eine Sequenz von Zeichen aus A 

• Seien A und B Zeichenvorräte. 

Eine Kodierung c ist eine Abbildung von Nachrichten in A auf Nachrichten in 

B. 

c: A → B* (B* : Zeichenreihen über B) 

• Wir beschränken uns meist auf binäre Codierungen, d.h. B = { 0, 1 } 

• Die Informationstheorie (nach Shannon) befasst sich mit Nachrichtenquellen 

auf der Ebene der Syntax aus stochastischer Sicht 

– Zeichen und zugehörige Kodierung haben immer identische Interpretation 

A 

a 

a 

b 

b 

c 

c 

d 

d 

B 

a 

O 1 

b 

Beispiel: 

abca → 00011000 

ddc → 111110 


Interpretation und Kodierung 

• Es gibt Kodierungen verschiedener Effizienz für die gleiche 

Information. 

• Die Informationstheorie betrachtet eine Informationsquelle nach 

Eigenschaften, die eine bessere (kürzere) Kodierung erlauben. 

• Informationsquelle wird durch einen Basiszeichenvorrat mit 

zusätzlichen Informationen (z.B. Häufigkeitsverteilung) erfasst. 

V 

= 

Identische Information 

I -1 

I 

A 

c 

Bessere (kleinere) Repräsentation 

B 


Entropie (1) 

• Annahme Stochastische Nachrichtenquelle: Wir kennen die 

Häufigkeitsverteilung der Zeichen in den Nachrichten. 

• Entscheidungsgehalt (Entropie) der Nachrichtenquelle: 

– Wie viele Ja/Nein-Entscheidungen entsprechen dem Auftreten eines 

Einzelzeichens? 

– Eine Ja/Nein-Entscheidung = 1 „bit“ 

• Beispiele: 

Quelle 1 Zeichen a A B C D 

p a = Häufigkeit 

x a = Zahl der 

Entscheidungen 

Häufigk. p a 

1 0 0 0 

x a 0 - - - 


Häufigk. p a 0.25 0.25 0.25 0.25 

x a 2 2 2 2 

2 x a = 1/p a 

x a = ld (1/p a ) 

(Logarithmus 

zur Basis 2) 


Entropie (2) 

• Durchschnittlicher Entscheidungsgehalt je Zeichen: Entropie H 

H 

= 

∑ 

a∈A 

p 

a 

⎛ 

ld 

⎜ 

⎝ 

1 

p 

a 

⎞ 

⎟ 

⎠ 

mit x a = ld (1/p a ): 


Häufigk. p a 1 0 0 0 

x a 0 - - - 


Häufigk. p a 0.25 0.25 0.25 0.25 

x a 2 2 2 2 


Häufigk. p a 0.5 0.25 0.125 0.125 

x a 1 2 3 3 

Entropie ist Maß für „Unordnung“, „Zufälligkeit“ 

H = 

∑ 

a∈A 

H = 0 

H = 2 

p a 

x a 

H = 1.75 


Wortlängen und Redundanz 

• Eine (Binär-)Codierung der Nachrichten einer stochastischen 

Nachrichtenquelle ergibt eine durchschnittliche Wortlänge L. 

L = 

∑ 

a∈A 

p a 

c(a) 


Häufigk. p a 0.25 0.25 0.25 0.25 

Code c(a) 00 01 10 11 

H = 2 

L = 2 


Häufigk. p a 0.5 0.25 0.125 0.125 

Code c(a) 00 01 10 11 

• Redundanz = L – H 

H = 1.75 

L = 2 

• Redundanz ist ein Maß für die Güte der Kodierung: möglichst klein! 


Optimale Kodierung 

• Eine Codierung ist optimal, wenn die Redundanz 0 ist. 

• Durch geeignete Kodierung (z.B. Wortkodierung statt 

Einzelzeichenkodierung) kann man die Redundanz beliebig 

niedrig wählen. 

• Redundanz ermöglicht andererseits die Rekonstruktion 

fehlender Nachrichtenteile! 

– B ispi l: Natürlich Sprach 

– Beispiel: Fehlererkennende und -korrigierende Codes (z.B. Paritätsbits) 


Häufigk. p a 0.5 0.25 0.125 0.125 

Code c(a) 

00 01 10 11 


Häufigk. p a 0.5 0.25 0.125 0.125 

Code c’(a) 

0 10 110 111 

H = 1.75 

L = 2 

H = 1.75 

L = 1.75 


Grundidee zur Huffman-Kodierung 

• Zeichen größerer Häufigkeit werden durch kürzere Codes repräsentiert 

– vgl. Morse-Code 

• Das führt zu einem Code variabler Wortlänge 

• In fortlaufenden Signalen muss gelten: 

– Kein Codewort darf Anfang eines anderen sein (Fano-Bedingung) 

• In optimalem Code müssen die beiden Symbole der niedrigsten Häufigkeit 

mit gleicher Länge codiert sein. 

"Beweis"-Skizze: 

– Wären die Längen verschieden, könnte man das längere Wort bei der Länge des kürzeren 

abschneiden 

• Dann sind die beiden Codes verschieden (sonst wäre Fano-Bedingung vorher verletzt 

gewesen) 

• Kein anderes Codewort kann länger sein (da Zeichen niedrigster Wahrscheinlichkeit), 

also kann die Kürzung nicht die Fano-Bedingung verletzen 

– Dann hätten wir einen neuen Code mit kleinerer durchschnittlicher Wortlänge! 


Huffman-Kodierung (1) 

• Gegeben: Zeichenvorrat und Häufigkeitsverteilung 

• Ergebnis: Codierung 

(optimal, wenn alle Häufigkeiten Kehrwerte von Zweierpotenzen sind) 

• Wiederholte Anwendung dieses Schritts auf die Häufigkeitstabelle: 

– Ersetze die beiden Einträge niedrigster Häufigkeit durch einen Codebaum mit zwei Ästen 

„0“ und „1“ und trage die Summe der Häufigkeiten als Häufigkeit dafür ein. 

Zeichen A B C D 

Häufigkeit 0.5 0.25 0.125 0.125 

0 1 


Häufigkeit 0.5 0.25 0.25 

David Huffman 1951 


Huffman-Codierung (2) 

0 1 


Häufigkeit 0.5 0.25 0.25 

0 1 

B 0 1 

Zeichen A C D 

Häufigkeit 0.5 0.5 

0 1 

A 0 1 

B 

0 1 

C D 

Resultierender Baum 

Kodierung entspricht 

Markierung entlang 

des Pfades 


Huffman-Codierung (3) 

• Eine Nachricht, die sich an die gegebene Häufigkeitsverteilung hält: 

ababacadaabacdba (Länge = 16 Zeichen) 

• Codierung mit festen Wortlängen 

(z.B. a = 00, b = 01, c = 10, d = 11) 

Länge 32 bit 

• Huffman-Codierung 

( a = 0, b = 10, c = 110, d = 111) 

0100100110011100100110111100 

Länge 27 bit 

(d.h. ca. 16% Reduktion) 


Experiment: Huffman-Kompression von Bildern 

• Grautonbild, 256 x 256 Pixel, 8 bit (d.h. 256 Graustufen) 

• Unkomprimiert: 65.536 Bytes 

• Mit Huffman kodiert: 40.543 Bytes ca. 38% Reduktion 

• Einfacher "Zusatztrick": 

– Differenz zwischen benachbarten Pixeln speichern 

und Huffman dann anwenden 

33.880 Bytes ca. 51% Reduktion 

– Keine universelle Kompression mehr, sondern speziell für Pixelbilder 

– "semantischen Kodierung" 


Lauflängencodierung 

• Unkomprimierte Repräsentationen von Information enthalten häufig 

Wiederholungen desselben Zeichens 

(z.B. lange Folgen von x00- oder xFF-Bytes) 

• Idee: Ersetzen einer Folge gleicher Zeichen durch 1 Zeichen + Zähler 

• Eingesetzt z.B. in Fax-Standards 

• Beispiel: 

aaaabcdeeefgggghiabtttiikkkddde 

ersetzt durch 

#a4bcd#e3f#g4hiab#t3#i2#k3#d3e 

• Probleme: 

– Bei geringer Häufigkeit von Wiederholungen ineffektiv (verschlechternd) 

– Syntaktische Trennung von Wiederholungsindikatoren und unverändertem Code 


• Grundidee: 

Wörterbuch-Kompressionen 

– Suche nach dem "Vokabular" des Dokuments, d.h. nach sich wiederholenden 

Teilsequenzen 

– Erstelle Tabelle: Index --> Teilsequenz ("Wort") 

– Tabelle wird dynamisch während der Kodierung aufgebaut 

– Codiere Original als Folge von Indizes 

• Praktische Algorithmen: 

– Abraham Lempel, Jacob Ziv (Israel), Ende 70er-Jahre 

• LZ77- und LZ78-Algorithmen 

– Verbessert 1984 von A. Welch = "LZW"-Algorithmus 

(Lempel/Ziv/Welch) 

– Basis vieler semantikunabhängiger Kompressionsverfahren 

(z.B. UNIX "compress", Zip, gzip, V42.bis) 

– Verwendet in vielen Multimedia-Datenformaten (z.B. GIF) 


Prinzip der LZW-Codierung 

• Nicht alle Teilworte ins Wörterbuch, sondern nur solche, die um ein Zeichen 

länger sind, als bisher bekannte 

• Teilworte bilden eine "Kette" von Teilworten, die sich um je ein Zeichen 

überschneiden. 

• Sequentieller Aufbau: 

Neu einzutragendes Teilwort = Kürzestes ("erstes") noch nicht 

eingetragenes Teilwort 

• Beispiel: 

b a n a n e n a n b a u 

ba an na ane en nan nb bau 

• Codierung: 


Neu ins Wörterbuch einzutragen, codiert nach altem Wb.-Zustand 


LZW-Codierung (1) 

• Tabelle mit Abbildung: Zeichenreihe Indizes 

• Vorbesetzung der Tabelle mit fest vereinbarten Codes für Einzelzeichen 

(muß nicht explizit gespeichert und übertragen werden) 

• Prinzipieller Ablauf: 

String w = “NächstesEingabezeichen“; 

Wiederhole bis Eingabeende: 

{ Char z = NächstesEingabezeichen; 

String v = w + “z“ 

Falls v in Tabelle enthalten ist 

w = v; 

Sonst 

{ Trage v neu in Tabelle ein 

(und erzeuge neuen Index dafür); 

Schreibe Tabellenindex von w auf Ausgabe; 

w = “z“; 

} 

} 

Schreibe Tabellenindex von w auf Ausgabe; 


Algorithmus-Beschreibung (“Pseudo-Code”) 

• Variablen (ähnlich zu C/Java-Syntax): 

– Datentyp fett geschrieben, gefolgt vom Namen der Variablen 

– Zuweisung an Variable mit “=“ 

• Datentypen: 

– int: Ganze Zahlen 

– Char: Zeichen (Buchstaben, Zahlen, Sonderzeichen) 

– String: Zeichenreihen (Sequenzen von Zeichen) 

• Einelementige Zeichenreihe aus einem Zeichen: “x“ 

• Aneinanderreihung (Konkatenation) mit + 

• NächstesEingabezeichen: 

– Liefert nächstes Zeichen der Eingabe und schaltet Leseposition im Eingabepuffer 

um ein Zeichen weiter 



• Vorbesetzte Tabelle (z.B. mit ASCII-Codes): 

[(, 97), (, 98), (, 99), (, 100), (, 101), (, 102), (, 103), 

(, 104), (, 105), (, 106), (, 107), (, 108), (, 109), 

(, 110), (, 111), (, 112), (, 113), (, 114), (, 115), 

(, 116), (, 117), (, 118), (, 119), (, 120), (, 121), 

(, 122)] 

• Für neue Einträge z.B. Nummern von 256 aufwärts verwendet. 



• Beispieltext: “bananenanbau" 

• Ablauf: 

Lesen (z) 

Codetabelle schreiben (v = w + “z“) 

Ausgabe 

Puffer füllen (w) 

b 

 

a 

(, 256) 

98 (b) 

 

n 

(, 257) 

97 (a) 

 

a 

(, 258) 

110 (n) 

 

n 

 

e 

(, 259) 

257 (an) 

 

n 

(, 260) 

101 (e) 

 

a 

 

n 

(, 261) 

258 (na) 

 

b 

(, 262) 

110 (n) 

 

a 

 

u 

(, 263) 

256 (ba) 

 

EOF 

117 (u) 


Kompression durch LZW 

• Am Beispiel: 

– 9 (16-Bit-)Worte statt 12 (16-Bit-)Worte, d.h. 25% 

• In realen Situationen werden oft ca. 50% erreicht. 

• Verfeinerungen des Algorithmus (z.B. Unix 

"compress"): 

– Obergrenze für Tabellengröße, dann statisch 

– Laufendes Beobachten der Kompressionsrate und ggf. Neustart 


LZW-Decodierung bei bekannter Tabelle 

Wiederhole solange Eingabe nicht leer: 

{ k = NächsteEingabezahl; 

Schreibe Zeichenreihe mit Tabellenindex k auf Ausgabe; 

} 


LZW-Dekodierung (1) 

• Grundidee („symmetrische Kodierung“): 

– Das aufgebaute Wörterbuch muss nicht zum Empfänger übertragen werden. 

– Das Wörterbuch wird nach dem gleichen Prinzip wie bei der Kodierung bei der Dekodierung dynamisch 

aufgebaut. 

– Das funktioniert, weil bei der Kodierung immer zuerst der neue Eintrag für das Wörterbuch nach 

bekannten Regeln aus dem schon gelesenen Text aufgebaut wird, bevor der neue Eintrag in der 

Ausgabe verwendet wird. 

• Algorithmusidee: 

– Neu einzutragendes Teilwort = letztes Teilwort plus erstes Zeichen des aktuellen Teilworts 


ba an na ane en nan nb bau 


LZW-Decodierung (2) 

• Prinzipieller Algorithmus: 

int k = NächsteEingabezahl; 

String w = Zeichenreihe mit Tabellenindex k; 

Schreibe w auf Ausgabe 



String akt = Zeichenreihe mit Tabellenindex k; 

Schreibe akt auf Ausgabe; 

Char q = erstes Zeichen von akt; 

Trage w + “q“ in Tabelle ein 


w = akt; 

} 



• Beispielzeichenreihe: “98-97-110-257-101-258-110-256-117" 

• Ablauf: 

Lesen 

(k) 

98 

97 

110 

257 

101 

258 

110 

256 

117 

EOF 

Ausgabe 

(q ist jeweils 

unterstriche 

n) 

b 

a 

n 

an 

e 

na 

n 

ba 

u 

Letztes 

Wort (w) 

b 

a 

n 

an 

e 

na 

n 

ba 

Codetabelle schreiben 

(w + “q“) 

(, 256) 

(, 257) 

(, 258) 

(, 259) 

(, 260) 

(, 261) 

(, 262) 

(, 263) 



• Beispieltext: “abababa…." 

• Ablauf Kodierung: 

Lesen (z) 

Codetabelle schreiben (v = w + “z“) 

Ausgabe 

Puffer füllen (w) 

a 

 

b 

(, 256) 

97 (a) 

 

a 

(, 257) 

98 (b) 

 

b 

 

a 

(, 258) 

256 (ab) 

 

b 

 

a 

 

b 

(, 259) 

258 (aba) 

 

a 

 

b 

(, 260) 

257 (ba) 

 

a 

 

b 

 

a 

(, 261) 

260 (bab) 

Prof. Dr. Rainer Malaka, Digitale Medien Medieninformatik 

 

1 34

LZW-Decodierung (5) 

• Beispielzeichenreihe: “abababa...“, Beispielcode: “97-98-256-258“ 

• Ablauf: 

Lesen 

(k) 

Ausgabe 

(q ist jeweils 

unterstrichen) 

Letztes 

Wort (w) 

Codetabelle schreiben 

(w + “q“) 

97 

a 

98 

b 

a 

(, 256) 

256 

ab 

b 

(, 257) 

258 

??? 

ab 

a b a b a b a … 

ab ba aba aba... 

Decodierung 

ist so noch nicht 

korrekt! 


LZW-Decodierung, vollständige Fassung 

int k = NächsteEingabezahl; 

String w = Zeichenreihe mit Tabellenindex k; 

String akt = ““; 

Schreibe w auf Ausgabe 



Falls Index k in Tabelle enthalten dann 

{ akt = Zeichenreihe mit Tabellenindex k; 

Char q = erstes Zeichen von akt; 

} 

sonst 

{ Char q = erstes Zeichen von w; 

akt = w + “q“; 

} 

Schreibe akt auf Ausgabe; 

Trage w + “q“ in Tabelle ein 


w = akt; 

}

Einführung in die Medieninformatik 1 - TZI

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?