Kapitel 6

Kapitel 6 

HASHING 

Algorithmen & Datenstrukturen 

Prof. Dr. Wolfgang Schramm

Übersicht 

1 

1. Einführung 

2. Algorithmen 

3. Eigenscha?en von 

Programmiersprachen 

4. Algorithmenparadigmen 

5. Suchen & SorGeren 

6. Hashing 

7. Komplexität von Algorithmen 

8. Abstrakte Datentypen (ADT) 

9. Listen 

10. Bäume 

11. Graphen

Lernziele des Kapitels 

2 

2 

¨ Kennenlernen von Hashing bzw. 

was die MoGvaGon für Hashing 

ist? 

¨ Verstehen wie Hashing 

funkGoniert. 

¨ Verstehen, was eine 

HashfunkGon ist. 

¨ Behandlung von Kollisionen 

beim Hashing verstehen. 

¨ Einsatzmöglichkeiten für 

Hashing kennenlernen.

Inhalt 

3 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

Hashing 

NotaGonen 

HashfunkGon bzw. Streuwer_unkGon 

Hashtabelle 

Beispiele 

Kollisionen und Kollisionsstrategien 

Offenes bzw. Geschlossenes Hashing 

Komplexität 

Anwendungsgebiete von Hashing 

Java Hashtable-‐Klasse 

Programmierbeispiel

Hashing 

4 

o 

o 

o 

Speichermethode 

¤ 

¤ 

bei großen Datenbanken 

beschleunigt das Finden von Daten 

Die Grundidee des Hashing-‐Verfahrens 

¤ 

Hash-‐FunkGon: Schlüsselwert à Speicheradresse 

GrundoperaBonen 

¤ 

¤ 

¤ 

Einfügen 

Löschen 

Suchen 

0 

1 

2 

3 

4 

5 

6 

7

Anwendungsgebiete 

5 

o 

o 

o 

o 

Datenbanken 

¤ 

Index für Tabellen 

à unter günsGgen Bedingungen 

„ideale“ Zugriffszeiten 

Compiler 

¤ 

InterpretaGon von Symboltabellen 

Betriebssysteme 

¤ 

ImplemenGerung von Seitentabellen 

SonsGge ApplikaGonen 

¤ 

¤ 

ImplemenGerung von Caches 

ImplemenGerung von Mengen

Hashing: DefiniGonen 1/6 

6 

o 

o 

o 

o 

U sei die Menge der möglichen Schlüssel. 

S ⊆ U sei die Menge der zu speichernden Schlüssel mit |S| = n. 

Ein Behälter (Bucket) kann ein mit einem Schlüssel zu idenGfizierendes 

Element aufnehmen. 

Eine Hashtabelle H ist eine Menge von nummerierten Behältern 

B 0 ,B 1 ,B 2 ,….B m-‐1 mit |H| = m. 

¤ 

Anmerkung: 

häufig ist eine Hashtabelle ein Array und 

der Bucket ein Arrayplatz

7 

¨ 

Eine HashfunkBon ist eine ganzzahlige FunkGon 


h : U →{0,..., 

h( u ) = a 

m −1} 

die einem Schlüssel u den Hashwert a zuordnet, der den Behälter B a 

bezeichnet. 

Anmerkung: bei Hasharray: statt Hashwert auch oft Hashindex

Beispiel Namen 

8 

Schlüssel: mögliche Schlüssel U = [A-‐Z][a-‐z]* 

zu speichernde Schlüssel S = 

Hashtabelle: Array 0..7 of Integer Array 0..7 of List of Integer 

HashfunkGon: h(u) = 

Gelöst (1): 

h(u) = mod 8 

Zu lösen (1): Länge der Hash-Tabelle müsste unendlich sein. 

mod 

Zu lösen (2): „Eva“ und „Ann“ 

haben gleich viele Buchstaben 

à „Kollision“ 

Gelöst (2): 

Liste 

alternativ zu (2): 

falls a[i] besetzt, 

wähle a[i+1], usw.


11 

¨ 

Anmerkung: 

¤ Eine HashfunkBon wird o? noGert als 

mit 

h : f ( u) 

mod m 

f (u)∈ Ν 

m = |H| 

H Hashtabelle 

|H| Länge der 

Hashtabelle 

u ganzzahliger 

Schlüssel 

d.h. 

 

 

f liefert eine „gut verteilte“ Abbildung auf N. 

Die modulo-‐OperaGon reduziert die Zahlen auf die Länge der Hash-‐ 

Tabelle


12 

¨ 

Die Schlüsseldichte ist das Verhältnis zu speichernde zu mögliche Schlüssel, 

d.h. 

S / U 

¨ 

Der Belegungsfaktor ist das Verhältnis zu speichernde Schlüssel zu Anzahl 

der Behälter 

S / 

B 

U: mögliche Schlüssel 

S: zu speichernde Schlüssel 

B: Behälter


14 

o Der Füllgrad α ist das Verhältnis 

¤ 

¤ 

aktuell gespeicherte Schlüssel zu 

Länge der Hashtabelle, d.h. 

α = a / m 

mit 

m = |H| bzw. m = |B| 

a = Anzahl gespeicherter Schlüssel 

Anmerkung 

Offensichtlich gilt: 

je höher der Füllgrad, um so größer die Wahrscheinlichkeit, dass zwei Schlüssel 

auf den gleichen Hash-‐Wert abgebildet werden („Kollision“).

Beispiel 1/4 

15 

Aufgabe 

o 

Verteilung von Monatsnamen auf 17 

Behälter 0..16 

Lösung 

o 

Namen werden als Strings dargestellt 

→ Umwandlung in Zahlen notwendig 

¤ 

¤ 

nur Großbuchstaben 

f("A") = 1, f("B") = 2, usw. 

A 1 

B 2 

C 3 

D 4 

E 5 

F 6 

G 7 

H 8 

I 9 

J 10 

K 11 

L 12 

M 13 

N 14 

O 15 

P 16 

Q 17 

R 18 

S 19 

T 20 

U 21 

V 22 

W 23 

X 24 

Y 25 

Z 26

Beispiel 2/4 

16 

¨ 

Als HashfunkGon nehmen wir 

¤ 

¤ 

f 

=∑ 

( x) ( x) 

3 

= 〈〈 Summe der Ordinalzahl der ersten 3 Buchstaben von 

h(x) = f x 

( ) mod 17 = ( x ) 3 

! mod 17 

Beispiel: 

h(Februar) = (6+5+2) mod 17 = 13 mod 17 = 13 

h(August) = (1+21+7) mod 17 = 29 mod 17 = 12 

x〉〉

Beispiel 3/4 

17 

0 NOV 9 JUL 

1 APR , DEZ 

10 

2 MAE 11 JUN 

3 12 AUG 

4 13 FEB , OKT 

5 14 

6 MAI , SEP 

15 

7 16 

8 JAN 

• Etliche Buckets bleiben leer 

– Füllgrad α = Anteil der belegten Plätze in %, d.h. 

α = m / n mit m := Anzahl der Elemente 

• Es kann zu Kollisionen kommen! 

Es fehlen noch: 

SEP, OKT, DEZ 

A 1 

B 2 

C 3 

D 4 

E 5 

F 6 

G 7 

H 8 

I 9 

J 10 

K 11 

L 12 

M 13 

N 14 

O 15 

P 16 

Q 17 

R 18 

S 19 

T 20 

U 21 

V 22 

W 23 

X 24 

Y 25 

Z 26

Beispiel 4/4 

18 

APR, DEZ à 1 

MAI, SEP à 6 

FEB, OKT à 13 

… mehrere Schlüssel werden auf denselben Behälter abgebildet. 

à Kollision 

è Auflösung 

l dem Behälter hinzufügen à Verketten (lineare Liste) 

l neuen Behälter suchen à Sondieren 

l vermeiden à perfektes Hashing

Wahrscheinlichkeit für Kollision 

19 

P 

k 

= 1− 

mit 1 ≤ m ≤ n 

n⋅( 

n −1) 

⋅( 

n − 2) ⋅... 

⋅( 

n − m + 1) 

m 

n 

n ⋅ (n-‐1) ⋅ … ⋅ (n-‐m+1): Anzahl der Möglichkeiten, kollisionsfrei m Elemente 

zu verteilen 

n m : Anzahl m Elemente 

zu verteilen 

= 

n! 

( n − m)! 

n 

m 

¨ 

Beispiele 

¤ Monatsnamen 

¤ „Geburtstage in Schulklassen“ 

n m P k 

17 12 0,99 

365 22 0,48 

365 23 0,51 

365 50 0,97


20 

¨ 

Eine Kollision tri auf, wenn zwei Schlüssel auf den gleichen Hashwert 

abgebildet werden: 

h( a ) = h( b) 

mit 

a ≠ b 

.

Eigenscha?en einer HashfunkGon 

21 

o 

o 

o 

surjekBv 

¤ 

d.h. alle Behälter sollten erfasst werden. 

gleichverteilend 

¤ 

d.h. jeder Behälter sollte mit gleicher Wahrscheinlichkeit getroffen 

werden. 

einfach 

¤ 

d.h. sie sollte mit minimalen Aufwand berechenbar sein.

Kollisionsstrategien 

22 

o 

VerkeSen 

o 

Sondieren 

¤ 

¤ 

Lineares Sondieren 

QuadraGsches Sondieren

Offenes bzw. geschlossenes Hashing 

23 

Problem : Was passiert wenn Anzahl Schlüssel > Anzahl Speicherplätze 

Lösung : 

1. Offenes Hashing: 

manchmal auch als 

geschlossen bzgl. der 

Indexpositionen bezeichnet 

! 

Jeder Behälter kann beliebig viele Elemente aufnehmen. Für jeden Behälter wird 

eine verkeete Liste angelegt, in die alle Schlüssel eingefügt werden, die auf 

diesen Behälter abgebildet werden. 

2. Geschlossenes Hashing: 

manchmal auch als 

offen bzgl. der 

Indexpositionen bezeichnet 

Hier darf jeder Behälter nur eine Konstante Anzahl b ≥ 1 von Schlüsseln 

aufnehmen. 

!

Offenes Hashing: Verkeen 

24 

… 

… 

3 

4 

5 

… 

… 

Maerz 

Januar 

April 

Dezember 

o 

o 

o 

Ein Behälter kann mehr als ein Element fassen 

Alle Schlüssel s mit h(s) = a werden in B a abgelegt 

als lineare Liste 

Gefahr: Entartung zur linearen Liste à Zugriffszeit wächst rapide

Geschlossenes Hashing: Lineares Sondieren 1/3 

25 

o 

o 

Pro Behälter ein Schlüssel 

Bei Kollision 

¤ 

Linear in einer Richtung nächsten freien Behälter suchen 

o 

o 

Formal 

h i 

( h( 

x) 

i) mod m 

( x) 

= + 

i=0; 

while (occupied(h i (x)) do 

i++; 

od; 

// hash-key is h i (x) 

Gefahr: Folge von besetzten Feldern vergrößert sich (Verklumpung) 

à Kollisionswahrscheinlichkeit steigt.

26 

Geschlossenes Hashing: Lineares Sondieren 2/3

Geschlossenes Hashing: Lineares Sondieren 3/3 

27 

o 

Varianten 

1. Linear in einer Richtung 

den nächsten freien Behälter suchen, 

mit Sprüngen der Länge c 

Beispiel 

c = 7; h(a) = 27 

falls 27 besetzt, … 27 + 7 = 34 mod m 

falls 34 besetzt, … 34 + 7 = 41 mod m etc. 

2. Linear in beiden Richtungen (alternierend) 

Beispiel 

h(a) = 27 

falls 27 besetzt, … 27 – 1*7 = 20 mod m 

falls 20 besetzt, … 20 + 2*7 = 34 mod m 

falls 34 besetzt, … 34 – 3*7 = 13 mod m etc.

28 

¨ 

Geschlossenes Hashing: QuadraGsches Sondieren 

Wie lineares Sondieren, jedoch 

¤ Schriweite quadraGsch (nicht linear) / alternierend 

Beispiel 

h(a) = 27 

falls besetzt, … 27 + 1 2 = 28 mod m 

27 – 1 2 = 26 mod m 

27 + 2 2 = 31 mod m 

27 – 2 2 = 23 mod m 

27 + 3 2 = 36 mod m etc. 

¨ 

Formal: 

h ( x) 

i 

= 

⎛⎛ 

⎜⎜h( 

x) 

+ 

⎜⎜ 

⎝⎝ 

( −1) 

i+ 

1 

⎡⎡ i ⎤⎤ 

. 

⎢⎢2⎥⎥ 

2 

⎞⎞ 

⎟⎟ 

⎟⎟ 

⎠⎠ 

mod m

29 

Liste: kein Problem 

Sondieren 

¤ 

¤ 

Element kann nicht 

einfach gelöscht 

werden, da sonst die 

Kee unterbrochen 

wäre. 

Bsp.: FEB verursacht 

Lücke, OKT wird nicht 

gefunden. 

Mögliche Lösungen 

¤ 

Element wird nicht 

gelöscht, sondern nur 

zum Überschreiben 

markiert. 

Löschen von Elementen 

0 NOV 9 JUL 

1 APR 10 

2 MAE Lineares 11 Sondieren JUN 

3 DEZ 12 AUG 

4 13 FEB 

5 14 OKT 

6 MAI 15 

7 SEP 16 

8 JAN ! 

Prof. Dr. M. Gumbel • WS09 • ADS: Hashing 

Folie 29

Komplexität 1/2 

30 

Größe der Hashtabelle: N 

o 

o 

Aufwand im besten Fall 

¤ 

Berechnung des Hashwertes unabhängig von n: 

O(1) 

Aufwand im schlechtesten Fall 

¤ 

Ganze Hashtabelle muss durchsucht werden 

O(N) 

(Hashtabelle wg. Kollision zu lin. Liste entartet)

Komplexität 2/2 

31 

Größe der Hashtabelle: N 

o Aufwand im mileren Fall (bei sondieren) 

¤ Wahrscheinlichkeit für Behälter j: 1/N 

¤ Wahrscheinlichkeit einer Kollision: 

n abhängig vom Füllgrad α 

n Wahrscheinlichkeit für „Behälter belegt“: α 

n …nächster Behälter belegt: α 2 

n … übernächstes Bucket belegt: α 3 etc 

¤ erfolgloses Suchen: 1 + α + α 2 + α 3 + ... = 

1 ⎛⎛ 1 ⎞⎞ 

¤ erfolgreiches Einfügen: ln⎜⎜ 

⎟⎟ 

α ⎝⎝1−α 

⎠⎠ 

1 

1−α

32 


Komplexität: Übersicht 

Operation Fall Liste oder Sondieren 

add bester O(1) 

durchschnittlich 

⎛⎛ 1 ⎞⎞ 

O⎜⎜ 

⎟⎟ 

⎝⎝1−α 

⎠⎠ 

schlechtester 

O(m) 

contains bester O(1) 


⎛⎛ 1 1 ⎞⎞ 

O⎜⎜ 

ln ⎟⎟ / 

erfolgreich/-los ⎝⎝α 1−α ⎠⎠ 

schlechtester 

O(m) 

remove bester O(1) 


⎛⎛ 1 1 ⎞⎞ 

O⎜⎜ 

ln ⎟⎟ 

⎝⎝α 1−α ⎠⎠ 

schlechtester 

O(m) 

⎛⎛ 1 ⎞⎞ 

O⎜⎜ 

⎟⎟ 

⎝⎝1−α 

⎠⎠ 

Folie 32

Optimaler Füllgrad α 

33 

¨ Ab Füllgrad von ca. 80 % ist das Verhalten schlecht. 

Erfolgreiche Suche 

Erfolglose Suche, 

Einfügen, Löschen 

1 1 

ln 

α 1−α 

1 

1−α 


Folie 33

Rehashing 

34 

¨ Füllgrad zu groß oder das Array voll: à Rehashing 

¤ Array wird vergrößert und 

¤ alle Elemente werden neu eingefügt. 

¨ Vorteil: Zum Löschen markierte Elemente können ebenfalls 

freigegeben werden. 

¨ Sog. dynamisches Hashen passt Arraygröße automaGsch an. 


Folie 34


35 

Für die ImplementaGon von Hashtabellen steht uns in Java unmielbar die 

Klasse Hashtable zur Verfügung. Sie hat die folgenden Methoden: 

Hashtable(): der Konstruktor für die DefiniGon einer leeren Hashtabelle 

elements(): Rückgabe aller Daten aus der Hashtabelle 

isEmpty(): Abfrage, ob die Hashtabelle leer ist 

get(): liefert Element gemäß Schlüsselwertangabe


36 

keys(): gibt alle (belegten) Schlüsselwerte der Hashtabelle zurück 

put(): speichert Element gemäß Schlüsselwert in Hashtabelle 

remove(): en_ernt referenziertes Hashtabellenelement 

size(): gibt Anzahl gespeicherter Elemente in der Hashtabelle zurück 

clear(): en_ernt alle Schlüssel und die Elemente aus der Hashtabelle


37 

contains(): prü?, ob sich ein Element in der Hashtabelle befindet 

containsKey(): prü?, ob sich ein Schlüsselwert in der Hashtabelle befindet 

clone(): erzeugt einen Klone einer Hashtabelle 

toString(): generiert eine String-‐RepräsentaGon einer Hashtabelle 

rehash(): führt das Rehashing für eine Hashtabelle durch.

38 

Programmierbeispiel

39 

Programmierbeispiel

Kapitel 6

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?