Цифровые отпечатки : О методе цифровых отпечатков : Сбор и хранение отпечатков
  
Сбор и хранение отпечатков
Образцы информационных ресурсов (документы, файлы и т.п.), отпечатки которых собраны и сохранены в базе данных, называются источниками отпечатков. Эти образцы могут быть изменены, добавлены или удалены, или уровень их секретности может со временем меняться. Для того, чтобы база данных учитывала все такие изменения, сервер регулярно выполняет задачи классификации, что приводит к обновлению хранилища отпечатков, как описано ниже.
Обработка образцов информации и снятие их отпечатков осуществляется задачами на сервере DeviceLock Enterprise Server. Каждая такая задача относится к определенной классификации и присваивает ее тем отпечаткам, которые она создает. Например, отпечатки, созданные задачей классификации “Конфиденциально”, относятся к той же классификации “Конфиденциально”.
При каждом запуске задача может проверять файлы в определенной папке. Для каждого файла она сначала создает его отпечатки и сравнивает их с отпечатками из базы данных. Дальнейшая обработка отпечатков файла зависит от результатов сравнения, как указано в следующих примерах:
В классификации уже содержится отпечаток, источник которого имеет ту же контрольную сумму, путь и имя, что и проверяемый файл. В этом случае задача не вносит изменений в хранилище отпечатков. Однако в случае другого пути или имени файл указывается как еще один источник этого отпечатка в базе данных.
Контрольная сумма файла отличается от контрольной суммы источника существующего отпечатка, но отпечаток файла в некоторой степени соответствует существующему отпечатку. В этом случае результат выполнения задачи зависит от процента совпадающих элементов этих отпечатков.
Если процент совпадающих элементов не превышает установленного порога, отпечаток файла добавляется в базу данных как новый отпечаток, у которого этот файл указан в качестве источника.
Если процент совпадающих элементов превышает установленный порог, то отпечаток файла указывается как новая версия отпечатка, уже существующего в базе данных. В этом случае файл указывается как еще один источник этого отпечатка, если его путь или имя отличается от пути и/или имени других источников.
Отпечаток файла не соответствует ни одному отпечатку из базы данных. В этом случае отпечаток файла добавляется в базу данных как новый отпечаток, у которого этот файл указан в качестве источника.
Даже если источник отпечатка удален, отпечаток остается в базе данных. Администраторы DeviceLock могут вручную удалять отпечатки или их отдельные версии с помощью консоли DeviceLock Management Console.
Порог создания версий отпечатков
Порог создания версий определяет создавать ли новый отпечаток или просто добавить новую версию к уже существующему. На сервере DeviceLock Enterprise Server указываются отдельные пороговые значения для текстового контента (например, текстовых файлов) и для двоичного контента (например, файлов изображений).
Многие файлы содержат контент обоих типов. Например, документы Microsoft Word представляют собой двоичные файлы, которые могут содержать текст и изображения. Отпечатки файлов со смешанным контентом содержат элементы, идентифицирующие текстовый контент и элементы, идентифицирующие двоичный контент. При классификации такого “смешанного” отпечатка сервер применяет оба пороговых значения, отдельно оценивая процент соответствия для “текстовых” и “двоичных” элементов отпечатка. Это приводит к следующим эффектам:
Отпечаток текстового файла может быть классифицирован как версия отпечатка для файла со смешанным контентом, и наоборот, “смешанный” отпечаток может оказаться версией отпечатка текстового файла.
Отпечаток двоичного файла, который не содержит текста, может быть классифицирован как версия отпечатка для файла со смешанным контентом, и наоборот, “смешанный” отпечаток может оказаться версией отпечатка двоичного файла без текстового контента.