Хеш-функции

Овал: С2. Список ? Нет

Да

K=KEY[i] R=0

УДАЧА ПЕРЕПОЛНЕНИЕ

Рис. Поиск с вставкой по рассеянной таблице с цепочками.

TABLE[1]: [ TO ][ ]

TABLE[2]: [ SYV ][ Λ ]

TABLE[3]: [ EN ][ Λ ]

TABLE[4]: [ TRE ][ Λ ]

TABLE[5]: [ FEM ][ Λ ]

TABLE[6]: [_ Λ _]

TABLE[7]: [_ Λ _]

TABLE[8]: [ SEKS ][ Λ ]

TABLE[9]: [ FIRE ][ ]

рис. Сросшиеся списки.

На первый взгляд шаг C5 может показаться неэффективным, так как в нем поиск свободной позиции производится последовательно. Но в

действительности в процессе заполнения таблицы суммарное число проб в шаге C5 не превышает количества элементов в таблице; значит, в среднем на каждую вставку тратится не более одной такой пробы!

Разрешение коллизий "открытой адресацией". Другой способ решения проблемы коллизий состоит в том, чтобы полностью отказаться от ссылок и просто просматривать один за другим различные элементы таблицы, пока не будут найдены ключ K или свободная позиция. Не плохо было бы иметь правило, согласно которому каждый ключ K определяет последовательность проб, т.е. последовательность позиций в таблице, которые нужно просматривать всякий раз при вставке или поиске K. Если мы, используя определяемую K последовательность проб, натолкнемся на свободную позицию, то можно сделать вывод, что K нет в таблице, так как та же последовательность проб выполняется каждый раз при обработке данного ключа. Этот общий класс методов У. Петерсон назвал открытой адресацией.

Простейшая схема открытой адресации, известная как линейное

опробование, использует циклическую последовательность

h(K), h(K)-1,…, 0, M-1, M-2,…, h(K)+1 (*)

и описывается следующим образом.

alg L.(Поиск с вставкой по открытой рассеянной таблице.)

Алгоритм позволяет разыскать данный ключ K в таблице из M узлов.

Если K нет в таблице и она не полна, ключ K вставляется.

Узлы таблицы обозначаются через TABLE[i], 0≤i<M, и принадлежат

двум различным типам узлов - свободных и занятых. Занятый узел

содержит ключ KEY[i] и, возможно, другие поля. Значение вспомогательной переменной N равно числу занятых узлов; эта переменная рассматривается как часть таблицы, и при вставке нового ключа ее значение увеличивается на 1.

Данный алгоритм использует хеш-функцию h(K) и линейную

последовательность проб (*) для адресации. Модификации этой

последовательности обсуждаются ниже.

L1.[Хеширование.] Установить i←h(K). (Теперь 0≤i< M.)

L2.[Сравнить.] Если узел TABLE[i] свободен, то перейти на L4. В

противном случае, если KEY[i]=K, алгоритм заканчивается удачно.

L3.[Перейти к следующему.] Установить i←(i-1); если теперь i<0,

Установить i←i+M. Вернуться на L2.

L4.[Вставить.] (Поиск был неудачным.) Если N=M-1, алгоритм

заканчивается по переполнению. В противном

случае установить N←N+1, отметить, что узел TABLE[i] занят и

установить KEY[i]←K.

На рис.( см. ниже) показано, что происходит при вставке с помощью алгоритма~L семи "норвежских" ключей , имеющих коды хеширования 2, 7, 1, 8, 2, 8, 1

соответственно. Последние три ключа- FEM, SEKS и SYV-смещены по

сравнению со своими начальными адресами h(K).

0 [ FEM ]

1 [ TRE ]

2 [ EN ]

3 [ ]

4 [ ]

5 [ SYV ]

6 [_SEKS ]

7 [_ TO ]

8 [ FIRE ]

Рис. Линейная открытая адресация.

Эксперименты с линейным опробованием показывают, что этот метод работает прекрасно, пока таблица не слишком заполнена, но в конце концов процесс замедляется, длинные серии проб становятся все более частыми. Причину такого поведения можно понять, рассмотрев следующую гипотетическую рассеянную таблицу (M=19, N= 9):

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Заштрихованные квадраты обозначают занятые позиции. Ключ K, который должен быть вставлен в таблицу следующим, попадет в одну из десяти свободных позиций, но не с равными вероятностями. В самом деле, K будет вставлен в позицию 11, если 11≤h(K)≤15, а в позицию 8 он попадет лишь при h(K)=8. Следовательно, вероятность попасть в

позицию 11 в пять раз больше, чем в позицию 8; длинные списки стремятся стать еще длиннее.

alg D.(Открытая адресация с двойным хешированием.)

Этот алгоритм почти совпадает с алгоритмом L, но использует несколько иную последовательность проб, вычисляя две хеш-функции h1(K) и h2(K). Как обычно, h1(K) порождает величины от 0 до M-1 включительно; но значения h2(K) должны лежать от 1 до M-1 и быть взаимно просты с M. (Например, если M - простое число, то h2(K) может быть любой величиной от 1 до M-1 включительно, или, если M=2m, то h2(K) может быть любым нечетным числом между 1 и 2m-1.)

D1.[Первое хеширование.] Установить i ←h2(K).

D2.[Первая проба.] Если узел TABLE[i] свободен, то перейти

на D6. В противном случае, если KEY[i]=K, алгоритм

заканчивается удачно.

D3.[Второе хеширование.] Установить c←h2(K).

D4.[Перейти к следующему.] Установить i←i-c; если теперь i<0,


Страница: