Хеш, хэш-функция и хеширование | Работа в интернете

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Этот раздел предназначен для объяснения различных терминов, связанных с компьютером и интернетом, которые не всегда до конца понятны широкому кругу пользователей и требуют дополнительной расшифровки.

На очереди понятия «хеш» (или «хэш») и «хэширование», которое реализуется на практике при помощи специальных функций, каждая из которых предназначена для определенной цели.

Ниже мы вкратце разберем, в каких областях используется хеширование и в чем его суть, какие существуют алгоритмы для осуществления этого процесса, что означают коллизии и т.п.

Ну и отдельно уделим место хэшированию в крипто-системах, что очень важно с практической точки зрения для тех, кто в той или иной степени связан с «цифровыми деньгами».

Содержание

Что такое хэш и хеширование простыми словами
Для чего нужен хеш и где применяется хэширование
Популярные алгоритмы хеширования
Демонстрация работы хэш-функции в онлайн-генераторе

Что такое хэш и хеширование простыми словами

Подвергнутый транслитерации (что это такое?) русскоязычный термин «хеш» (по-другому «хэш») происходит от английского слова «hash», в переводе одним из значений которого является «путаница», «мешанина». Производную «hashing», описывающую процесс хеширования, можно перевести как «перемешивание». Это практически полностью отражает суть.

Хэширование — это преобразование любого массива данных в символьный (буквенно-цифровой) набор заданной длины (хэш, хэш-код, хеш-сумма) посредством определенной функции (hash function), базирующейся на том или ином алгоритме (подробности о типах алгоритмов ниже).

Хеширование применяется в цифровой среде. А значит, любая исходная информация, включая текст и набор цифр, а также полученный хеш, обычно кодируются с помощью двоичной системы счисления (где используются лишь 0 и 1) и имеют свой объем, который измеряется в битах (bit).

Обязательное условие: алгоритм должен работать в одностороннем направлении. То есть, преобразованные данные не могут быть возвращены в исходный вид без достаточно больших временных затрат и без приложения огромных вычислительных мощностей.

Кроме того, важным свойством любой хеш-функции является ее детерминированность. Иными словами: если входящие данные не изменяются, то итог хэширования остается одним и тем же на все 100 процентов. При этом количество знаков в буквенно-цифровом наборе хеша и его объем в битах будет неизменным вне зависимости от размера исходной информации (будь это 5, 10 символов, предложение или даже целая Энциклопедия).

И наконец, изменение состава исходящих данных должно приводить к образованию абсолютно другого хеша. Даже если вы уберете одну букву или цифру либо замените их на другие, это приведет к совершенно иному результату.

В мире нет ничего идеального, это относится и к hash-функциям. Иначе говоря, могут возникать так называемые коллизии, когда для различных начальных данных получается совершенно одинаковый хеш. Эти ошибки могут оказаться фатальными при использовании функций, которые в первую очередь призваны обеспечить безопасность. Но чем надежнее используемый алгоритм, тем меньше вероятность такого исхода. Правда, теоретически такая опасность остается всегда по причине того, что хеш имеет фиксированное число символов и объем.

Для чего нужен хеш и где применяется хэширование

Использование хэш-функций носит достаточно распространенный характер. Они применяются во многих областях и обладают разной степенью сложности в зависимости от поставленных задач (где-то более важна надежность, а где-то — быстрота и минимум потребляемых ресурсов).

Более простые хеш-функции используются там, где важна скорость передачи данных в сети интернет по различным протоколам, самым распространенным из которых является TCP/IP. Ежели вы являетесь обычным пользователем, то наверняка при скачивании файлов из интернета не обращали внимание на присутствие непонятных латинских букв и набора цифр наподобие этих:

CRC32: 6EACF252

А между тем, они и составляют хеш (или контрольную сумму) вместе с названием алгоритма (протокола) хеширования, находящемся в начале этой записи. На базе контрольной суммы любой пользователь в силах определить, произошло ли скачивание корректно и получил ли он точную копию файла либо закралась какая-то ошибка, а потому требуется повторное скачивание.

С целью проверки целостности файла можно установить специальную программу (к примеру, HashTab), которая способна вычислить контрольную сумму полученного файлика по нужному алгоритму и сравнить ее с хешем, предоставленным на сайте, откуда произошло скачивание.

Подобная утилита особенно полезна для запускающих файлов, с помощью которых инициируется инсталляция объемных приложений, например, тех же игр. Ведь в ходе установки программы с поврежденного exe-файла возникают проблемы, которые сжирают немерено нервных клеток.

Однако этот софт актуален и для проверки небольших объектов. Ведь модификация абсолютно любого файлика может быть вызвана не простой ошибкой при передаче, а наличием дополнения в виде вирусов. Так что сравнение контрольных сумм и в этом случае эффективно.

Основная задача сложных криптографических хэш-функций — обеспечение безопасности и максимальной защиты данных. В целях соответствия своему предназначению они должны быть максимально устойчивыми к следующим наиболее известным и часто предпринимаемым атакам:

нахождение коллизий. То есть, обнаружение возможности образования одной и той же хеш-суммы для различных наборов данных;
поиск первого прообраза. Если говорить вкратце, то это попытка восстановить исходную информацию по заданному значению хеша;
поиск второго прообраза. Обнаружение конкретного входа, с помощью которого возможна генерация хеш-ключа, образованного при хешировании других заведомо известных данных. Атака связана с первым вариантом, так как при ее применении требуется отыскать коллизию. Отсюда можно сделать вывод, что hash-функция, устойчивая к коллизиям, будет такой же надежной и при противостоянии к поиску второго прообраза.

Ниже рассмотрим сферы, где находят применение надежные криптографические хеш-функции.

Технология электронно-цифровой подписи (ЭЦП, ЭП или ЦП). Существует несколько типов схем ЭП, наиболее распространенная из которых базируется на ассиметричном шифровании с использованием сгенерированной пары ключей (закрытого и соответствующего ему открытого). Документ подписывается с помощью закодированного закрытого ключа, а проверка подлинности подписи осуществляется посредством открытого ключа.

Применение хеширования в технологии ЦП позволяет: сохранить целостность всего документа и избежать несанкционированных правок, а значит, исключить подделки; обеспечить достаточно высокую степень защиты подписи; гарантировать быструю обработку массивов данных.

Хранение паролей на большинстве современных веб-сайтов также осуществляется с помощью хеширования. Пароли всех пользователей хранятся в виде хеш-кодов, что на порядок повышает безопасность. При авторизации парольный набор символов, введенный юзером, моментально преобразуется в его хэш и сопоставляется с теми хэш-суммами, которые хранятся в базе. При обнаружении полного совпадения системой происходит вход в аккаунт.

Крипто-валютные системы, созданные на основе технологии Блокчейн, наверное, активнее всех применяют алгоритмы хеширования. Например, протокол платформы Биткоин, являющейся номером 1 среди множества криптовалютных разработок, предусматривает использование хеша в майнинге, включая формирование блоков и связывание входов-выходов транзакций. При этом используется двойное хеширование для максимального снижения риска появления коллизий.

Наименование	Краткое описание
CRC32	Применяется для защиты данных и выявления ошибок при передаче файлов в сети с помощью создания контрольных сумм размером 32 бита. Отличается минимальным расходом ресурсов и высокой эффективностью для выполнения именно этой задачи.
MD5	Довольно древний, но все еще востребованный вариант крипто-алгоритма, образующий 128-битный хэш. Пока все еще используется в том числе как вариант генерирования контрольной суммы при передаче данных в интернете, а также при хранении паролей. Недостаток: слабая сопротивляемость к атакам, связанным с нахождением коллизий.
SHA-1	Криптографический алгоритм хеширования, разработанный Агентством Национальной Безопасности США (NSA) в 1995 году. Работает с использованием функции сжатия. Размер выходных данных — 160 bit. Строго говоря, это улучшенная версия MD5. На сегодня в основном также применяется для генерирования контрольных сумм и хранения паролей.
SHA-2	Улучшенная версия SHA-1 с принципиальными нововведениями. Этот криптографический алгоритм с очень высоким уровнем безопасности был разработан NSA в 2002 году и включает несколько разновидностей, в число которых входит знаменитый SHA-256, используемый платформой Bitcoin и рядом других криптовалютных эко-систем.
SHA-3	Другое название этого на данный момент самого продвинутого алгоритма — Keccak. Его разработка была завершена в 2012 году, а в 2015 SHA-3 был утвержден в статусе официального стандарта. Keccak работает по принципу «криптографической губки»: изначальные данные «впитываются» в губку, затем подвергаются перестановке в ходе нескольких раундов, после чего результирующий хэш «выжимается» из губки. Одна из наиболее известных областей применения — crypto-система Ethereum.
Стрибог (STREEBOG)	Разработан в Центре защиты информации Федеральной Службы Безопасности РФ на базе государственного стандарта ГОСТ Р 34.11-2012 и утвержден в 2019 году. Размер хэш-кода составляет 256 или 512 бит. Его криптостойкость весьма высока и скорость работы также на уровне. Используется для проставления электронных подписей на документах.

Демонстрация работы хэш-функции в онлайн-генераторе

Давайте изучим на наглядном примере, какие результаты получаются при использовании разных hash-алгоритмов. В качестве инструмента используем один из простых онлайн-генераторов, где из выпадающего меню можно выбрать нужный алгоритм:

Вводим в поле исходный буквенно-цифровой набор (например, «gold 1») и нажимаем на кнопку «hash». Вот какие хэш-коды получаются при использовании одних и тех же входных данных, но с применением функций, основанных на разных алгоритмах:

Вы сами можете поэкспериментировать при помощи этого генератора, введя свои начальные данные (короткое сообщение, состоящее из нескольких знаков, предложение или даже целый текстовый фрагмент). Обращаю ваше внимание на то, что при вводе можно использовать не только буквы и цифры, но и спецсимволы (@, $, & и т.д.). На этом все. До скорой встречи!