Concatenamento

Un modo per risolvere le collisioni consiste nello sfruttare le linked list per metterle su ogni cella, per poi inserirci tutti gli elementi che hanno chiavi diverse ma hash uguali.

In questo caso, le implementazioni sono:

search(T, x) in tempo proporzionale alla lunghezza della lista su T[h(x.key)]
insert(T, x) in $Θ (1)$ inserendo x in testa a T[h(x.key)]
delete(T, x) in $Θ (1)$ se x.prev è presente, altrimenti come search

Tempo di ricerca

Nel caso peggiore tutti gli $n = ∣ K ∣$ elementi sono nella stessa cella, e quindi il tempo di search è $O (n)$ , mentre nel caso medio il tempo dipende dalla distribuzione delle chiavi fra le $m$ celle.

Una distribuzione ideale di $h$ è data dall'hashing uniforme e indipendente, per cui: $P (h = i) = \frac{1}{m}, \forall i \in {0, ..., m - 1}$ da cui si ricava il fattore di carico $α = \frac{n}{m}$ .

In questo caso, la lunghezza media di una lista lunga $n_{i}$ su T[i] è: $\frac{n _{0} + n _{1} + ... + n _{m - 1}}{m} = \frac{n}{m} = α$ Di conseguenza, la ricerca senza successo avviene in $Θ (1 + α)$ , perchè $h$ è almeno $Θ (1)$ ma $\exists n : α < 1$ . La ricerca con successo invece, avviene in $Θ (1 + \frac{α}{2}) = Θ (1 + α)$ , perchè in media arriva fino a metà lista.

Per cui, finchè $n = O (m)$ si ha $α = O (1)$ perchè $h$ è uniforme, altrimenti quando $n$ cresce T va riallocato.

Funzione hash

Quando $U ⊈ N$ le chiavi vanno trasformate, per esempio attraverso la notazione posizionale: $CLRS = 12 8^{3} \cdot C + 12 8^{2} \cdot L + 12 8^{1} \cdot R + 12 8^{0} \cdot S$ dove $128 = 2^{7}$ è il numero di valori rappresentabili in $7$ bit per carattere nella codifica ASCII, i.e. base $128$ .

In generale, per diminuire le collisioni si può usare la tecnica di hashing universale per cui la funzione $h$ viene scelta casualmente da una famiglia $H$ di funzioni uniformi all'inizio del programma.

Divisione

$h (k) = k mod m$ risulta essere semplice, ma richiede un'accurata scelta di $m$ :

$m \neq = 2^{p}$ perchè altrimenti $h (k)$ considera solo i $p$ bit meno significativi, scartando gli altri
$m \neq = 2^{p} - 1$ se $k$ è una stringa in base $2^{p}$ , perchè altrimenti le permutazioni di $k$ danno lo stesso $h (k)$
$m = q$ dove $q$ è un numero primo distante da potenze di $2$ e $10$

Moltiplicazione

$h (k) = ⌊(k \cdot A mod 1) \cdot m ⌋$ con $U \subseteq N$ , fissando $A \in (0, 1)$ e ottenendo da $k \cdot A mod 1$ un valore in $[0, 1)$ da trasformare in $[0, m)$ .

In questo modo $m$ non è più critico e la funzione è ottimale per la maggior parte degli $A$ , tra cui $A = \frac{5 - 1}{2}$ .

Se $k$ è una word lunga $w$ , la funzione si può semplificare scegliendo una $q$ tra le $2^{w}$ word e ponendo: $m = 2^{p} \land A = \frac{q}{2 ^{w}}$ così che $h (k)$ restituisca i $p$ bit più significativi di $k \cdot A mod 1$ , ovvero ((k*q) & ((1 << w)-1)) >> (w-p).

Computer Science

Concatenamento

Tempo di ricerca

Funzione hash

Divisione

Moltiplicazione