Indirizzamento aperto

Un modo alternativo per risolvere le collisioni consiste nel memorizzare gli elementi con lo stesso hash nella tabella insieme agli altri, per poi cercarli attraverso l'ispezione di T[h(k)]:

Se la cella equivale a k la ricerca ha successo
Se equivale a NIL la ricerca termina con insuccesso
Se è diversa da k si trova il prossimo indice dall'ordine di ispezione, cioè il numero di ispezioni fatte

Si vuole quindi che la funzione hash rappresenti la posizione di $k$ in T dopo $i$ ispezioni fallite: $h (k, i) : U \times {0, ..., m - 1} \to {0, ..., m - 1}$ con la condizione che per ogni $k$ la funzione assuma tutti i valori, così che ogni cella possa essere usata.

Implementazione

In queste versioni delle operazioni, per semplicità, gli elementi di T sono solamente le chiavi stesse.

Inserimento

insert(T, k)
  i = j = 0
  found = false
  while not found and i < m
    j = h(k, i)
    if T[j] == NIL or T[j] == DELETED
      T[j] = k
      found = true
    else
      i++
  if found
    return j
  return NIL

Ricerca

search(T, k)
  i = j = 0
  found = false
  do
    j = h(k, i)
    if T[j] == k
      found = true
    else
      i++
  while not found and i < m and T[j] != NIL
  if found
    return j
  return NIL

Cancellazione
```
delete(T, k)
  T[search(T, k)] = DELETED
```
Il motivo per cui si usa DELETED invece che NIL è che quest'ultimo serve ad indicare la fine della catena di ricerca, e quindi porterebbe alla perdita dei valori sulle $i$ successive.

Lo svantaggio di questo metodo è che il tempo di ricerca non dipende più da $α = \frac{n}{m}$ .

Metodi di ispezione

Come per il concatenamento, una funzione $h$ ideale rispetterebbe le proprietà dell'hashing uniforme così che, dato un $k$ , ogni $h (k, i)$ è distribuito uniformemente sulle $m$ celle.

Dato che è difficile rispettarle, vengono adottate delle approssimazioni.

Ispezione lineare

$h (k, i) = (h^{'} (k) + i) mod m$ dove $h^{'} : U \to {0, 1, ..., m - 1}$ è detta funzione hash ausiliaria.

Questo metodo è semplice, ma genera la stessa sequenza di ispezioni per le $k$ diverse con lo stesso $h^{'} (k)$ .

Ispezione quadratica

$h (k, i) = (h^{'} (k) + c_{1} \cdot i + c_{2} \cdot i^{2}) mod m$ dove $h^{'}$ è l'hash ausiliaria e $c_{1}, c_{2} \in {1, ..., m - 1}$ sono costanti, con buoni valori $c_{1} = c_{2} = \frac{1}{2}$ e $m = 2^{p}$ .

Anche in questo caso genera la stessa sequenza di ispezioni per $k$ diverse con $h^{'} (k)$ uguali.

Doppio hashing

$h (k, i) = (h_{1} (k) + i \cdot h_{2} (k)) mod m$ dove $h_{1, 2}$ sono hash ausiliarie, di cui $h_{1}$ marca la cella di partenza mentre $h_{2}$ definisce lo step delle ispezioni.

Questo metodo genera sequenze diverse di ispezione, dato che dipendono da $h_{2} \neq = h_{1}$ .

Per generare sequenze su tutti i valori della tabella, $h_{2} (k)$ dev'essere relativamente primo con $m$ :

Si usa $m = 2^{p}$ pari e si definisce $h_{2} (k)$ come sempre dispari, e.g. $h_{2} (k) = 2 \cdot h^{'} (k) + 1$
Si usa $m$ primo e $h_{2} (k)$ minore di $m$ , e.g. $h_{1} (k) = k mod m$ , $h_{2} (k) = 1 + (k mod m^{'})$ per $m^{'} < m$

Tempo di ricerca

Al contrario del concatenamento, l'indice di prestazione $α = \frac{n}{m} \in [0, 1]$ perchè $n = ∣ K ∣ \leq m$ .

Se $α < 1$ esiste almeno una cella vuota su cui la ricerca senza successo si può fermare, quindi:

$P (i = 0) = 1$ perchè la prima ispezione è sempre effettuata
$P (i = 1) = \frac{n}{m}$ ovvero la probabilità che la cella su $i = 0$ sia occupata
$P (i = 2) = \frac{n}{m} \cdot \frac{n - 1}{m - 1}$ perchè anche la cella su $i = 1$ sia occupata
$P (i = 3) = \frac{n}{m} \cdot \frac{n - 1}{m - 1} \cdot \frac{n - 2}{m - 2}$ perchè anche la cella su $i = 2$ sia occupata

Di conseguenza il valore atteso di $i$ , ovvero il numero medio di ispezioni, è al massimo¹: $E (i) = 0 \cdot P (i = 0) + 1 \cdot P (i = 1) + ... \leq k = 0 \sum \infty α^{k} = \frac{1}{1 - α}$ e lo stesso vale per l'inserimento, dato che cerca una cella vuota.

Nella ricerca con successo invece, il numero medio di ispezioni è $\frac{1}{α} lo g \frac{1}{1 - α}$ .

CLRS, Introduction to Algorithms (4th ed.), pp. 298-299

Computer Science