Как работает дедупликация

Дедупликация в источнике

При выполнении резервного копирования в дедуплицирующее хранилище агент Acronis Backup вычисляет цифровой отпечаток каждого блока данных. Такой цифровой отпечаток обычно называют хэш-значением.

Прежде чем отправить блок данных в хранилище, агент запрашивает базу данных дедупликации, нет ли уже в этом хранилище блока с таким хэш-значением. Если да, то агент отправляет только хэш-значение элемента. В противном случае отправляется сам блок. Узел хранения сохраняет полученные блоки данных во временном файле.

Некоторые данные, такие как зашифрованные файлы или дисковые блоки нестандартного размера, не могут быть дедуплицированы. Агент всегда передает такие данные в хранилище без вычисления их хэш-значений. Дополнительные сведения об ограничениях дедупликации см. в разделе Ограничения дедупликации.

По завершении процесса дедупликации хранилище содержит полученную в результате резервную копию и временный файл с уникальными блоками данных. Временный файл обрабатывается на следующем этапе. Резервная копия (TIB-файл) содержит хэш-значения и данные, которые не удалось дедуплицировать. Дальнейшая обработка этой резервной копии не требуется. Она готова для восстановления данных из нее.

Дедупликация в месте назначения

Когда резервное копирование в дедуплицирующее хранилище завершается, узел хранения запускает действие индексирования. Это действие дедуплицирует данные в хранилище следующим образом.

  1. Блоки данных перемещаются из временного файла в специальный файл в хранилище, при этом повторяющиеся элементы сохраняются только один раз. Этот файл называется папкой дедуплицированных данных.
  2. Хэш-значения и ссылки, необходимые для «сборки» дедуплицированных данных, сохраняются в базе данных дедупликации.
  3. После перемещения всех блоков данных временный файл удаляется.

В результате хранилище данных содержит некоторое количество уникальных блоков данных. На каждый блок указывает одна или несколько ссылок из резервных копий. Эти ссылки хранятся в базе данных дедупликации. Резервные копии остаются без изменений. Они содержат хэш-значения и данные, которые не удалось дедуплицировать.

На следующей диаграмме показан результат дедупликации в месте назначения.

Выполнение действия индексирования может занять значительное время. Чтобы просмотреть состояние этого действия на сервере управления, выберите соответствующий узел хранения и щелкните Просмотр сведений. Также в этом окне можно вручную запустить или остановить это действие.

При резервном копировании большого объема уникальных данных может произойти сбой индексирования из-за недостаточной емкости ОЗУ на узле хранения. Процессы резервного копирования продолжат выполняться. В этом случае можно увеличить объем ОЗУ на узле хранения или удалить ненужные резервные копии и запустить процесс уплотнения. По окончании следующего процесса резервного копирования индексирование будет запущено снова.

Уплотнение

После удаления хотя бы одной резервной копии или архива из хранилища как вручную, так и в процессе очистки, в хранилище могут остаться блоки, на которые не ссылается ни один архив. Такие блоки удаляются заданием на уплотнение, которое выполняется узлом хранения по расписанию.

По умолчанию задания на уплотнение выполняются каждое воскресенье в 03:00 ночи. График выполнения задания можно изменить, выбрав соответствующий узел хранения и щелкнув Просмотр сведений, а затем щелкнув Расписание уплотнения. На этой же вкладке можно вручную запустить или остановить задание.

Удаление неиспользуемых блоков является ресурсоемкой операцией, поэтому задание уплотнения выполняется только при накоплении значительного объема подлежащих удалению данных. Пороговый объем определяется параметром конфигурации Compacting Trigger Threshold (Пороговое значение для включения сжатия).