Vorlesungsprotokoll

Transformationskodierung – DKT 

Medientechnik II 

Vorlesungsprotokoll vom 29.11.2006 

FHTW Berlin – Internationaler Studiengang Medieninformatik 

Dozent: Prof. Dr. Kai Uwe Barthel 

Protokoll: Anne Böhnke, Thomas Köhn und Peter Mädel 

Internationaler Studiengang Medieninformatik 

FHTW Berlin 

Medientechnik 2 

Prof. Dr. Kai Uwe Barthel 

Vorlesungsprotokoll 

vom 29.11.2006 

von 

Anne Böhnke 

Peter Mädel 

Thomas Köhn 

1/13







Themen des Protokolls 

1. Wiederholung 

2. Diskrete Kosinustransformation (DCT / DKT) 

a) 1D Transformationscodierung 

b) 2D Transformationscodierung 

c) Basisbilder & Transformationskoeffizienten 

d) Bildannäherung durch Überlagerung 

3. Quellen 

2/13







1. Wiederholung 

Um den Datenumfang eines Bildes zu reduzieren, haben wir uns bisher schon mit verschiedenen 

Codierungsverfahren beschäftigt und daraus einige Erkenntnisse gewinnen können. So hängt die 

tatsächliche Anzahl der pro Pixel verwendeten Bits u.a. davon ab, wieviele Intensitäten in dem Bild 

vorkommen und wie sie von der Häufigkeit her verteilt sind. Für alle unsere Überlegungen 

beschränken wir uns auf die Verwendung von Graustufenbildern, da hier nur ein Intensitätskanal 

betrachtet werden muss. Alle Konzepte sind aber ohne Weiteres auf Farbbilder übertragbar, da sich 

im RGB-Raum lediglich die Anzahl der Kanäle auf drei ändert. 

Ein Bild, in dem alle Intensitäten vorkommen und gleich häufig verteilt sind, lässt sich mit bisherigen 

Codierungsmethoden vom Datenumfang her nicht reduzieren, hier müssen für jedes Pixel die vollen 

8bit verwendet werden. 

Abb.1: Histogramm eines schwarz-weiß Farbverlaufs 

Im Vergleich dazu kommen in einem normalen Graustufenbild nicht alle Intensitäten vor. Sie sind auch 

im seltensten Fall gleichhäufig verteilt. Deshalb geht man davon aus, dass für die meisten Bilder 7 

statt der theoretischen 8bit pro Pixel genügen, um das Bild verlustlos zu speichern. 

Abb.2: Histogramm eines Graustufenbildes 

Des Weiteren gibt es auch Bilder, denen bereits aus Gründen der Datenreduktion eine reduzierte 

Farbpalette zugewiesen wurde. Diese Bilder benötigen ebenfalls nicht die gesamten 8bit sondern im 

Grunde nur soviele, wie für die Anzahl der Intensitäten nötig sind. Ein Bild, welches lediglich aus vier 

Intensitäten besteht wird z.B. im Normalfall auch nur 2bits zur Speicherung jedes Pixel benötigen. 

Abb.3: Histogramm eines 4-Farben-Bildes 

Im Zuge der prädiktiven Codierung ist uns zusätzlich aufgefallen, dass extrem ungleiche Verteilungen 

von Vorteil sind, um weniger Bits zur Beschreibung eines Pixel einsetzen zu müssen. Hier sind meist 

nur 3 bis 5bits von Nöten. 

Abb.4: Histogramm mit extrem ungleicher Intensitätsverteilung 

3/13







2. Diskrete Kosinustransformation (DCT) 

a) 1D Transformationscodierung 

Weiterhin haben wir zur Verringerung der zu übertragenden Werte eines Bildes bereits die 

Möglichkeit der örtlichen Prädiktion 1 kennengelernt. 

Eine weitere Möglichkeit könnte die Übertragung nur der jeweils ungeraden bzw. geraden Spalten 

eines Bildes als Teilbilder sein: 

gerade Pixel-Spalten f(2x) 

ungerade Pixel-Spalten f(2x+1) 

Abb. 5: Übertragung von Teilbildern 

Hier ist jedoch zu erkennen, dass sich sich die Histogramme der Teilbilder kaum vom Histogramm des 

Originals unterscheiden und somit das Ziel der Datenersparnis nicht erfüllt wird. 

1) 

Redundanzreduktion durch Vorhersage des aktuellen Pixelwertes aus bekannten Pixelwerten der Vergangenheit. 

4/13







Bei der 1D Transformatioscodierung wird deshalb zunächst das Prinzip der 

Verbundverteilungsdichte angewandt. Dabei wird jeweils die Auftretenshäufigkeit benachbarter 

Pixel betrachtet (1D hier: eindimensional, nur in eine Richtung - horizontal oder vertikal - gehend). 

Jedes Pixelpaar kann jetzt als ein Punkt in einem kartesischen Koordinatensystem dargestellt werden. 

Die Koordinaten dieses Punktes bilden dabei der Farbwert des aktuell betrachteten Pixels als x- 

Koordinate zusammen mit dem Farbwert des darauf folgenden Pixels als y-Koordinate. 

Abb. 6: Verbundverteilungsdichte 

Beispiel: 

Die Farbwerte 99 und 97 sind nun darstellbar als Punkt (99,97) = 99 * (1,0) + 97 * (0,1) als 

Skalarprodukt mit den Einheitsvektoren oder in Vektorenschreibweise: 

99 

97 = 99 1 0 97 0 1 

Die Idee der Transformationscodierung besteht in der Redundanzreduktion, d.h. In diesem Fall 

Datenreduktion ohne subjektive (sichtbare) Veränderungen. 

Basierend auf den Überlegungen zur Verbundsverteilungsdichten ergeben sich dazu zwei 

Herangehensweisen. 

Aus der graphischen Darstellung im Koordinatensystem lässt sich folgendes erschließen: 

Da aufeinanderfolgende Pixel meist einen ähnlichen, möglicherweise sogar identischen 

Luminanzwert besitzen, befindet sich der Großteil der als Punkte dargestellten Paare von 

Luminanzwerten in der unmittelbaren Umgebung der Winkelhalbierenden. Daher wäre es 

sinnvoll, das Koordinatensystem so zu drehen, dass dieser Großteil an Paaren auf einer der 

beiden Achsen des Koordinatensystems liegen, da somit der neu zu berechnende 

dazugehörige Wert in der Nähe von 0 liegen muss – vorausgesetzt, die Werte ähnelten sich 

zuvor. Ist dies der Fall, lässt sich zumindest bei der Hälfte der Werte durch variable 

Codelänge ein Großteil an Daten einsparen. 

5/13







Betrachtet man im Gegensatz dazu die Datenspeicherungsaspekt, heißt Redundanz von 

Daten hier, dass für zwei meist ähnlich große Intensitätswerte zweimal viel Speicherplatz 

verbraucht wird, um sie separat zu speichern. Sinnvoller erscheint der Ansatz, die beiden zu 

speichernden Werte so voneinander abhängig zu machen, dass dadurch die Datenmenge 

reduziert werden kann. Eine Möglichkeit wäre dabei, einen der beiden Wert als eine Art 

Basiswert zu verwenden und diesen durch den zweiten nur noch im Detail zu verändern. 

Beide Herangehensweisen beschreiben dasselbe Reduktionsverfahren, die erste auf eher 

geometrischem und die zweite auf eher mathematischem Wege. 

Die Vektoren der Pixelpaare werden auf das neue Koordinatensystem projiziert, indem man das 

Skalarprodukt mit den neuen Einheitsvektoren des Koordinatensystems bildet. 

Beispiel: 

Jedes Pixelpaar kann nun neu beschrieben werden: (99,97) = 98 * (1,1) - 1 * (-1,1) 

oder in Vektorenschreibweise: 

99 

97 = 98 1 1 −1 −1 

1 

Abb. 7: Transformation des Koordinatensystems 

Die Werte von u (der gedrehten y-Achse) haben nun erheblich kleinere Beträge als vor der 

Transformation, d.h. auch die Entropie von u ist nun wesentlich geringer, als von v. 

Probe: 

Die Richtigkeit der Werte lässt sich überprüfen, indem man die Beträge der jeweiligen Ausgangs- und 

transformierten Vektoren vergleicht, diese müssen gleich sein. 

Abb. 8: 1D Transformationscodirung 

6/13







Jedes Pixelpaar lässt sich durch Überlagerung (Superposition) von zwei Basisblöcken beschreiben 

(s. auch 2c. Basisbilder). 

b. 2D Transformationscodierung 

Bei der zweidimensionalen Transformationscodierung werden im Gegensatz zur 1D Codierung nicht 

nur benachbarte, sondern Pixel-Blöcke in vertikaler und horizontaler Ausdehnung betrachtet. 

Als Beispiel betrachten wir hier 2x2-Pixel-Blöcke. Jetzt werden 4 Basisböcke zur Darstellung des 

Ausgangsblocks benötigt. 

Auch hier werden die Vektoren mittels der Einheitsvektoren auf das neue Koordinatensystem 

projiziert. 

Beispiel: 

Transformation der (hier vierdimensionalen) Vektoren: 

Abb. 9: 2D Vektortransformation 

Aus den neu beschriebenen 2x2-Pixelblöcken werden nun 2x2-Pixel-Basisbilder. 

Jeder 2x2-Block lässt sich durch Überlagerung (Superposition) von vier Basisblöcken beschreiben (s. 

auch 2c. Basisbilder). 

7/13







Abb. 10: 2D Transformationscodierung - Basisbilder 

c. Basisbilder & Transformationskoeffizienten 

Die bei der 2D Transformationscodierung verwendeten Basisbildmuster bzw. Basisbilder sind die 

Endprodukte der diskreten Kosinustransformation (DKT). Auch der Kompressions-Algorithmus arbeitet 

mit 64 solcher Basisbilder, die jedoch nicht 2x2 sondern der 8x8 Pixel groß sind. 

Abb. 11: DKT-8x8Basisbilder 

Die Basisbilder werden durch, in den Blöcken vertikal 

und horizontal abgebildete, sich teilweise überlagernde, 

Kosinusfunktionen dargestellt. Die Frequenzen der im 

jeweiligen Basisbild abgebildeten Kosinusfunktion(en) 

nehmen dabei von links nach rechts sowie von oben 

nach unten zu. 

Das Muster links oben hat die niedrigste Frequenzen 

(0,0) und ist somit der Gleichanteil DC. Es bestimmt 

den Grundfarbton für die gesamte Dateneinheit. Die 

restlichen Basisbilder werden AC-Koeffizienten 

genannt, wobei die Blöcke, die nicht in der ersten 

Spalte oder ersten Zeile stehen, Kombinationen der 

jeweiligen Zeilen und Spalten sind. 

Große regelmäßige Flächen im Bild schlagen sich in 

niedrigen Frequenzanteilen nieder, feine Details und 

genaue Auflösung von Farbunterschieden in hohen. 

Mit Hilfe der DKT wird sicher gestellt, dass jeder Vektor eines Basisblock zu jedem Vektor eines 

anderen Basisblocks orthogonal ist, was der Fall ist, wenn das Skalarprodukt der beiden 0 ergibt. 

Daher entspricht die Dimension des Vektors auch der Anzahl der Basisbilder. Durch Gewichtung der 

passenden Basisbilder mit den jeweils notwendigen Transformationskoeffizienten ist es möglich, das 

gesamte Bild Block für Block vollständig zu rekonstruieren. Somit müssen pro Bildblock nur noch die 

Transformationskoeffizienten gespeichert werden, was eine große Datenreduktion darstellt. 

8/13







Die Formel zur Berechnung von DKT-Basisbildern sowie weiterführende Informationen dazu findet 

man auf http://www.mathematik.de/spudema/spudema_beitraege/beitraege/rooch/nkap06.html 

Die Transformationskoeffizienten, die die Gewichtung bzw. Energie des jeweiligen Basisbilds im 

momentan abzubildenden Bildblock darstellen, müssen nicht mit voller Genauigkeit codiert werden, 

um das Bild wiedererkennbar wiederherstellen zu können. Ausgehend davon, dass wir bis zu diesem 

Punkt die DCT nur auf Graustufenbilder angewandt haben, sind den Größen der Gewichte logische 

Grenzen von -128 bis 127 gesetzt, da die Speicherung der Koeffizienten ansonsten mehr 

Speicherplatz verbrauchen würde, als die des eigentlichen Bildpunktes. 

Mit Hilfe des DKT kann man die Schwächen des menschlichen Auges, das hohe Ortsfrequenzen nicht 

erkennen kann, ausnutzen, indem man solche Frequenzen heraus filtert. Hinzu kommt das sich 

benachbarte Pixelwerte digitaler Bilder in der Regel kaum unterscheiden, weshalb nach der DKT 

meist nur der DC-Koeffizient und einige niederfrequente AC-Koeffizienten größere Werte annehmen. 

Die anderen Koeffizienten mit Werten von fast 0 oder gleich 0 können dann, ohne einen großen 

Qualitätsverlust, weggelassen werden. Es müssen somit also nur kleine Zahlen kodiert werden, was 

bei geeigneter Darstellung bereits einen Komprimierungseffekt hat. 

d. Bildannäherung durch Überlagerung 

Das Originalbild wird also bei der Transformationscodierung in einen allgemeinen und einen 

speziellen Teil aufgeteilt. Der allgemeine Teil sind die standardisierten DCT-Basisbilder, die für jedes 

Bild – abgesehen von der Blockgröße – identisch sind. Der spezielle Teil dagegen sind die genau zu 

diesem Bild(ausschnitt) gehörenden Transformationskoeffizienten. 

Abb.12: Beschreibung eines Bildausschnitts durch DCT-Basisbilder und Transformationskoeffizienten 

In der Praxis werden folglich nur sie übertragen, die DCT-Basisbilder liegen dem Decoder vor. 

Erhält der Decoder nun also für einen festgelegten Block eines Bildes alle 

Transformationskoeffizienten und möchte daraus wieder das dazugehörige Bild reproduzieren, muss 

er sich zunächst anhand der Blockgröße die Basisbilder errechnen 2) . Im nächsten Schritt kombiniert er 

das Basisbild an der Stelle (x, y) mit dem Transformationskoeffizienten der Stelle (x, y) und erhält 

dadurch ein gewichtetes Basisbild. 

2) 

Blockgröße NxN bedeutet NxN Basisbilder, welche wiederum jeweils aus NxN Pixel bestehen – jedes Basisbild beeinflusst 

folglich alle Pixel des resultierenden Blocks 

9/13







Abb. 13: Gewichtung des Basisbildes (1,1) 

Die gewichteten Basisbilder überlagert er dann miteinander, wodurch dieser Block des Bildes 

reproduziert wurde (siehe Abb.7).Grafisch betrachtet, wird der Transformationskoeffizient als Intensität 

dargestellt. Ein grauer Koeffizient (Intensität ca. 128) hat im Betrag gesehen die kleinste Energie. 

Abb.14: Gewichtung mit Koeffizient 0 

Ein mit ihm gewichtetes Basisbild hat (fast) keine Auswirkungen auf das reproduzierte Bild, da seine 

Varianz bzw. seine Standardabweichung gegen 0 streben. Ein schwarzer oder weißer Koeffizient hat 

im Vergleich dazu die größte Auswirkung auf das Bild, da er die Varianz des Basisbildes maximal hält. 

Abb.15: Gewichtung mit Koeffizient 1 

10/13







Ist der Koeffizient schwarz, sind die Intensitäten des Basisbildes im Vergleich zu einem weißen 

Koeffizienten invertiert. 

Abb.16: Gewichtung mit Koeffizient -1 

Die gewichteten Basisbilder werden miteinander überlagert und es entsteht das zu reproduzierende 

Ausgangsbild (siehe Abb.7). 

Mathematisch gesehen stellt der Transformationskoeffizient den Koeffizienten eines Vektors dar. 

Dieser Vektor ist wiederum die mathematische Darstellung eines Basisbildes. 

 

1 

−1 

−1 

1 

 

∗ 

−1 = 

−1 

 

1 

1 

−1 

Abb. 17: Zusammenhang von Basisbildern und Vektoren 

 

Multipliziert man alle Koeffizienten mit ihren Vektoren und addiert diese anschließend, erhält man 

wieder den den ursprünglichen Bildblock beschreibenden Vektor. 

Zur verlustbehafteten Kompression der Bilddaten stehen uns so wenigstens zwei Möglichkeiten zur 

Verfügung, die im Vergleich zu ihrem Datenersparnispotential die Bildqualität meist nur moderat 

reduzieren. 

Die erste Möglichkeit besteht darin, mit den bisher bekannten Wegen zur verlustlosen und 

verlustbehafteten Kompression den Speicherbedarf der Koeffizienten zu reduzieren. Zur Auswahl 

stehen hier u.a. die Lauflängencodierung, variable Codelängen und die prädiktive Codierung 3) . 

Die zweite Möglichkeit besteht darin, Koeffizienten mit geringer Energie erst gar nicht zu übertragen, 

da sie eh nur einen sehr geringen Einfluss auf das zu reproduzierende Bild haben werden. Es wird 

also nur noch ein Teil der gewichteten Basisbilder miteinander überlagert. Damit die dabei 

3) 

Themen vergangener Vorlesungen 

11/13







entstehende Abweichung vom Originalbild – der Approximationsfehler – minimal gehalten wird, 

werden die gewichteten Basisbilder nach absteigender Gewichtung vor der Überlagerung sortiert, 

beginnend mit der höchsten. 

Abb.18: Sortierung der gewichteten Basisbilder nach absteigender Energie ihrer Koeffizienten 

So ist schon mit einer geringen Anzahl gewichteter Basisbilder ein optisch akzeptables komprimiertes 

Bild erreichbar. 

Abb.19: Überlagerung der ersten 16 von 64 möglichen gewichteten Basisbildern und Original zum Vergleich 

Da beide Möglichkeiten zur Datenkompression parallel angewendet werden können, wird so ein 

großer Teil an redundanten Daten eingespart. 

12/13







3. Quellen: 

Vorlesungsskript 

Wikipedia 

http://jendryschik.de/michael/inf/dct/ 

http://www.binaryessence.de/dct/de000166.htm 

http://www.mathe-online.at/ 

http://www.mathematik.de/spudema/spudema_beitraege/beitraege/rooch/nkap06.html 

http://jendryschik.de/michael/inf/dct/ 

http://www.ztt.fh-worms.de/de/others/sem/ws95_96/kompressionsalgorithmen/node34.html 

Bildquellen: 

Abb. 1-4, 13-17: eigene Grafiken 

Abb. 5:http://www.mee.tcd.ie/~ack/cd/linereg/lenna.jpg & eigene Grafik 

Abb. 6-12, 18, 19: Vorlesungsskript 

13/13

Vorlesungsprotokoll

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?