Tabelle di Hash ADT Dizionario - Xoom.it

Algoritmi e Programmazione AvanzataTabelle di hashTabelle di HashFulvio Corno, Matteo Sonza ReordaDip. Automatica e InformaticaPolitecnico di TorinoADT DizionarioIn molte applicazioni è necessario un ADT“Dizionario” che supporti le seguentioperazioni:• INSERT: Inserisce un elemento nuovo, conun certo valore (unico) di un campo chiave• SEARCH: Determina se un elemento con uncerto valore della chiave esiste; se esiste,lo restituisce• DELETE: Elimina l’elemento identificato dalcampo chiave, se esiste.A.A. 2001/2002 APA-hash 21

Algoritmi e Programmazione AvanzataTabelle di hashEsempi• Tabella dei simboli di un compilatore• Chiave = nome di un identificatore• Dati aggiuntivi = tipo, contesto, dichiarazione• Cache di file o URL• Chiave = path• Dati aggiuntivi = attributi e contenutoA.A. 2001/2002 APA-hash 3Array associativiUna struttura a dizionario si potrebbeimplementare facilmente disponendo di arrayassociativi, ossia vettori indicizzabili percontenuto anziché per posizione.Esempio (di fantasia):• Simboli[“main”] = { prog.c, 100, void, {int,char **}}• Line n = Simboli[“counter”].linenumA.A. 2001/2002 APA-hash 42

Algoritmi e Programmazione AvanzataTabelle di hashObiettiviLe tabelle di hash sono una tecnicaimplementativa per realizzare arrayassociativi.Si vuole ottenere una complessità nel caso piùfrequente O(1) per le 3 operazionifondamentali, anche se nel caso peggiore èΘ(n).A.A. 2001/2002 APA-hash 5Idea baseOgni elemento è memorizzato ad un certoindirizzo di un array.L’indirizzo, anziché venire calcolato da unafunzione di ricerca, viene calcolato daun’opportuna funzione, detta funzione dihash, in tempo O(1).Esempio:• Hash(“main”) = 117: il simbolo “main” èmemorizzato alla posizione 117 dell’array.A.A. 2001/2002 APA-hash 63

Algoritmi e Programmazione AvanzataTabelle di hashTabelle associative•1•2•4U (universo delle chiavi)•7•0•6•9•3 •5•80123456789T2358chiaveK (chiavi usate)dati associatiA.A. 2001/2002 APA-hash 7Dizionario mediante tabellaassociativa• T: tabella associativa, k: chiave, x:elemento• Search(T, k)• Return T[k]• Insert(T, x)• T[key[x]] ← x• Delete(T, x)• T[key[x]] ← NIL• Complessità O(1), occupazione O(|U|)A.A. 2001/2002 APA-hash 84

Algoritmi e Programmazione AvanzataTabelle di hashIpotesiLo schema precedente funziona solamente sesono verificate delle assunzioni fondamentali:• Non esistono elementi con chiave uguale• L’array T contiene tanti elementi quantisono i possibili valori diversi delle chiavi.A.A. 2001/2002 APA-hash 9Tabelle di HashNella maggior parte dei casi, il numero dielementi |K| è molto minore del numero divalori possibili delle chiavi |U|.Quando l’universo delle chiavi è vasto (|U|cresce) non è possibile allocare il vettore T.Una tabella di hash è una struttura dati conun’occupazione di spazio O(|K|) e tempi diaccesso O(1), nel caso medio.A.A. 2001/2002 APA-hash 105

Algoritmi e Programmazione AvanzataTabelle di hashFunzione di hash• La tabella di hash contiene m elementi(m

Algoritmi e Programmazione AvanzataTabelle di hashCollisione• Ogniqualvolta h(k i )=h(k j ) quando k i ≠ k j , siverifica una collisione• Occorre:• Minimizzare il numero di collisioni (ottimizzandola funzione di hash)• Gestire le collisioni residue, quando avvengono(permettendo a più elementi di risiedere nellastessa locazione)A.A. 2001/2002 APA-hash 13Ridurre le collisioniLe funzioni di hash migliori sono quelle chedistribuiscono il più uniformemente possibile i|K| elementi negli m indirizzi a disposizione.La funzione h(k) deve sembrare il più“casuale” possibile. Solitamente di effettuanomanipolazioni sui bit della chiave k,unitamente ad una scelta di un numero primoper il valore di m.A.A. 2001/2002 APA-hash 147

Algoritmi e Programmazione AvanzataTabelle di hashGestire le collisioni residueSolitamente si utilizzano due tecniche:• Chaining• Open AddressingA.A. 2001/2002 APA-hash 15Chaining (I)La soluzione più semplice per gestire lecollisioni è permettere a più elementi dirisiedere nella stessa locazione della tabella T.Ogni locazione di T è quindi un insieme dielementi, e può essere implementata sottoforma di lista concatenata.Tale tecnica viene detta chaining.A.A. 2001/2002 APA-hash 168

Algoritmi e Programmazione AvanzataTabelle di hashChaining (II)•k 6•k 3 •k 4•k•k 21 •k 53 k 445 k 267k 50U12 k 1 k 68m-1k 3TA.A. 2001/2002 APA-hash 17Pseudo-codice• T[i] sono puntatori a liste, inizializzati aNIL.• CHAINED-HASH-INSERT(T,x)• inserisci x alla testa della lista T[h(key[x])]• CHAINED-HASH-SEARCH(T,k)• cerca l’elemento con chiave k nella lista T[h(k)]• CHAINED-HASH-DELETE(T,x)• cancella x dalla lista T[h(key[x])]A.A. 2001/2002 APA-hash 189

Algoritmi e Programmazione AvanzataTabelle di hashEsercizio propostoSi definiscano in C le strutture dati ed iprototipi delle funzioni necessarie permemorizzare in una hash table con chaningdegli elementi contenenti una stringa (campochiave) e due interi (dati aggiuntivi).A.A. 2001/2002 APA-hash 19Esercizio propostoSi completi l’esercizio precedenteimplementando le funzioni di inserimento,ricerca e cancellazione.Si assuma di disporre di un’opportunafunzione h(k), di cui occorre fornire ilprototipo.A.A. 2001/2002 APA-hash 2010

Algoritmi e Programmazione AvanzataTabelle di hashComplessità• Ipotesi: liste non ordinate• Inserimento: O(1)• Ricerca: O(lunghezza delle liste)• Cancellazione:• O(1) se ho il puntatore ad x e la lista èdoppiamente linkata• Uguale alla ricerca se ho il valore di x, oppure ilvalore della chiave k, oppure la lista èsemplicemente linkataA.A. 2001/2002 APA-hash 21Complessità delle ricerche (I)• Detti:• n il numero di elementi memorizzati• m la dimensione della tabella di hash• Si definisce:• α=n/m: fattore di carico della tabella di hash T• Può essere α>1• Che cosa succede quando m,n→∞ (a paritàdi α) ?A.A. 2001/2002 APA-hash 2211

Algoritmi e Programmazione AvanzataTabelle di hashComplessità delle ricerche(II)• Nel caso peggiore la ricerca richiede Θ(n),più il tempo per calcolare h(k): la tabella dihash degenera in una lista semplice nonordinata• Il caso migliore dipende da quantouniformemente h(k) distribuisce glielementi. Assumiamo per ora che h(k)abbia egual probabilità di generare gli mvalori di uscita: hashing semplice uniformeA.A. 2001/2002 APA-hash 23Hashing semplice uniformeAssumiamo di saper calcolare h(k) in O(1). Lacomplessità per la ricerca dipende linearmentedalla lunghezza della lista T[h(k)].Occorre valutare separatamente il caso dielemento trovato ed elemento non trovato.Si può dimostrare che in entrambi i casi lacomplessità è Θ(1+α).A.A. 2001/2002 APA-hash 2412

Algoritmi e Programmazione AvanzataTabelle di hashConclusioneSe:• Il numero m di “slot” cresceproporzionalmente ad n (α costante)• h(k) distribuisce uniformemente glielementiAllora:• La funzione di ricerca in una tabella di hashcon chaining è Θ(1+α)=O(1).A.A. 2001/2002 APA-hash 25Progettare le funzioni di hashLa scelta della funzione di hashing è crucialeper l’efficienza dell’intera struttura dati.Si assume che le funzioni migliori siano quelleche realizzano un hashing uniforme: se i valoridelle chiavi k sono equiprobabili, allora tutti ivalori della funzione h(k) devono essereanch’essi equiprobabili.∑k:h(k ) = j1P( k)= , j = 0,1, K,m −1mA.A. 2001/2002 APA-hash 2613

Algoritmi e Programmazione AvanzataTabelle di hashCriteri generali• Poiché le chiavi k solitamente non sonoequiprobabili, anzi spesso sono moltocorrelate (si pensi ai nomi di variabili),occorre:• Usare tutti i bit della chiave• “Amplificare” le differenze• Si può sempre pensare che le chiavi sianorappresentate come numeri interi (illimitati)• Es: “abc” può essere interpretata come‘a’*256 2 + ‘b’*256 + ‘c’A.A. 2001/2002 APA-hash 27Chiavi come numeriNel seguito si assume che k siano numeriinteri, o siano ricondotti a numeri interi.Nella pratica, lavorando con stringhe di unacerta lunghezza non è pratico convertire innumeri interi, per cui si adotteranno dellevarianti dei metodi esposti.A.A. 2001/2002 APA-hash 2814

Algoritmi e Programmazione AvanzataTabelle di hashHashing per divisione• Interpretando k come un numero intero, sidefinisce:• h(k) = k mod m• Dato un numero previsto di elementi n, pergarantire una certa complessità occorrescegliere m≥αn.A.A. 2001/2002 APA-hash 29Scelta di m• Occorre evitare che m sia• una potenza di 2 (usa solo gli ultimi m bit di k)• una potenza di 10 (se k sono numeri decimali)• 2 p -1 (se si trattano stringhe, in quantotrasposizioni di caratteri generano collisioni)• ...• Solitamente si sceglie per m un valore:• corrispondente ad un numero primo• non troppo vicino ad una potenza di 2A.A. 2001/2002 APA-hash 3015

Algoritmi e Programmazione AvanzataTabelle di hashEsempio• n = 2000 elementi previsti• Vogliamo un numero di confronti mediopari a 3 nelle ricerche• m = 701 è un numero primo vicino a2000/3 ma distante dalle potenze di 2• h(k) = k mod 701A.A. 2001/2002 APA-hash 31Hashing per moltiplicazione• Interpretando k come un numero intero, sidefinisce:• Una costante 0

Algoritmi e Programmazione AvanzataTabelle di hashScelta di m e A• Il valore di m non è affatto critico.Solitamente si sceglie una potenza di 2, inmodo che moltiplicazione e parte intera siriducano ad estrarre una sotto-sequenza dibit• La scelta ottima di A dipende dallecaratteristiche statistiche delle chiavi• A = (√5 – 1) / 2 = 0.6180339887... è una“buona” sceltaA.A. 2001/2002 APA-hash 33Hashing universaleTutte le funzioni di hashing sono suscettibili diqualche caso peggiore nella scelta “cattiva”delle chiavi.Si può pensare di “randomizzare” la sceltadella funzione h(k), per “proteggerla” contro icasi peggiori.Ad ogni esecuzione del programma, si scegliea caso una funzione di hash tra un insieme difunzioni predefinite. La probabilità del casopeggiore viene così notevolmente ridotta.A.A. 2001/2002 APA-hash 3417

Algoritmi e Programmazione AvanzataTabelle di hashConsiderazioni pratiche• Quasi sempre le chiavi sono stringhe(trattarle come numeri interi è complesso)• Gli operatori bit-a-bit del C sono moltoefficienti• Gli shift > possono spostare parti dellachiave per rompere schemi ripetuti• L’or esclusivo ^ permette di combinaresottosequenze di bit senza il mascheramento diand (&) e or (|)• Si può sfruttare il parallelismo delle parole dellaCPU (16, 32 bit)A.A. 2001/2002 APA-hash 35HashPJW#define PRIME 211int hashpjw(char *s){ char *p ;unsigned int h=0, g;for ( p=s; *p != '\0'; p++ ) {h = ( h > 24 ) ;h = h ^ g ;}}return h % PRIME ;}A.A. 2001/2002 APA-hash 3618

Algoritmi e Programmazione AvanzataTabelle di hashEsercizio propostoSi completi il programma implementando lafunzione hashpjw e confrontandonesperimentalmente le prestazioni con altrefunzioni di hash più semplici.Si può calcolare la lunghezza minima/massima(non media!) delle liste, o la varianza dellalunghezza, o il numero di liste vuote, ilnumero di confronti totale, ...A.A. 2001/2002 APA-hash 37Analisi sperimentaleÈ stata condotta un’analisi sulle prestazioni didiverse funzioni di hash su diverse tipologie didati di ingresso.Per ciascuna, è stato misurato il rapporto tra ilnumero di confronti misurato ed il caso attesoper una funzione di hash totalmente uniforme.La tabella di hash conteneva 211 elementi(numero primo).A.A. 2001/2002 APA-hash 3819

Algoritmi e Programmazione AvanzataTabelle di hashInput utilizzati1: i 50 identificatori e parole chiave più frequenti in un campionedi programmi C2: i 100 identificatori e parole chiave più frequenti in uncampione di programmi C3: i 500 identificatori e parole chiave più frequenti in uncampione di programmi C4: 952 nomi ‘extern’ nel kernel di Unix5: 627 identificatori in un programma C generato dalcompilatore C++6: 915 stringhe generate casualmente7: 614 parole tratte da un testo di informatica8: 1201 parole inglesi, con “xxx” aggiunto come prefisso esuffisso9: i 300 nomi: “v100”, “v101”, …, “v399”A.A. 2001/2002 APA-hash 39Funzioni di hash• hashpjw• ×β, con β=65599, 16, 5, 2, 1• h(k) = Σ k[i] × β i• middle: considera i 4 caratteri centrali• ends: considera i primi 3 e gli ultimi 3caratteri• quad: raggruppa i caratteri 4 a 4 e sommagli interi corrispondentiA.A. 2001/2002 APA-hash 4020

Algoritmi e Programmazione AvanzataTabelle di hashQuantità misurate• Il numero di confronti attesi per una lista dilunghezza b j è b j (b j +1)/2.• Il numero totale è ottenuto sommando ilcontributo delle m liste: Σ j=0..m-1 b j (b j +1)/2• Il caso migliore è dato da (n/2m)(n+2m–1)• Viene calcolato il rapporto• Σ j=0..m-1 b j (b j +1)/2 ÷ (n/2m)(n+2m–1)A.A. 2001/2002 APA-hash 41RisultatiA.A. 2001/2002 APA-hash 4221

Algoritmi e Programmazione AvanzataTabelle di hashOpen AddressingLa tecnica nota come Open Addressing èun’alternativa al Chaining per gestire lecollisioni.Ogni cella di T può contenere un soloelemento, e non è necessario gestire le liste dicollisione.In caso di collisione si ricerca un’altra cellanon ancora occupata.Funziona solo con α

Algoritmi e Programmazione AvanzataTabelle di hashHash-InsertHASH-INSERT(T, k)1 i ← 02 repeat j ← h(k, i)3 if T[j] = NIL4 then T[j] ← k5 return6 else i ← i + 17 until i = m8 error “hash table overflow”A.A. 2001/2002 APA-hash 45Hash-SearchHASH-SEARCH(T, k)1 i ← 02 repeat j ← h(k, i)3 if T[j] = k4 then return j5 i ← i + 16 until T[j] = NIL or i = m7 return NILA.A. 2001/2002 APA-hash 4623

Algoritmi e Programmazione AvanzataTabelle di hashCancellazioneLa cancellazione è un’operazione complessa,in quanto “rompe” le catene di collisione.L’open addressing è in pratica utilizzato soloquando non si deve mai cancellare.A.A. 2001/2002 APA-hash 47Funzioni di hashLinear probing• h(k, i) = (h’(k)+i) mod mQuadratic probing• h(k, i) = (h’(k)+ c 1 i + c 2 i 2 ) mod mDouble hashing• h(k, i) = (h 1 (k)+ i h 2 (k) ) mod mA.A. 2001/2002 APA-hash 4824

Algoritmi e Programmazione AvanzataTabelle di hashComplessitàNel caso di hashing uniforme e di probinguniforme, si può dimostrare che:• Il numero atteso di tentativi di “probing” è1/(1–α), ed è uguale alla complessità perl’inserimento• La complessità della ricerca è invece1 1 1ln +α 1−ααA.A. 2001/2002 APA-hash 49Esercizio propostoSi implementi in C una tabella di hash conprobing lineare, realizzando le funzioni diinserimento e di ricerca.A.A. 2001/2002 APA-hash 5025

Tabelle di Hash ADT Dizionario - Xoom.it

Create successful ePaper yourself

Delete template?

Save as template?