Цифровые отпечатки : О методе цифровых отпечатков : Как этот метод устроен
  
Как этот метод устроен
Метод цифровых отпечатков основан на взаимодействии следующих элементов:
Контентно-зависимые правила
Контентные группы
Классификации цифровых отпечатков
Цифровые отпечатки документов и файлов
База данных цифровых отпечатков
Процент соответствия
Нормализация отпечатков
Контентно-зависимые правила
Контентно-зависимые правила могут использовать контентные группы цифровых отпечатков для анализа данных на основе цифровых отпечатков. Такие правила могут применяться как к устройствам, так и к сетевым протоколам, позволяя использовать цифровые отпечатки для управления разрешениями на доступ/передачу контента, контентно-зависимым созданием теневых копий и/или простым обнаружением контента.
Контентные группы
Контентные группы цифровых отпечатков реализуют проверку контента с использованием цифровых отпечатков. Каждая такая группа ссылается на определенную классификацию отпечатков и позволяет задать минимальный процент соответствия отпечатков (называемый порогом), который требуется для присвоения данной классификации проверяемому контенту.
Классификации цифровых отпечатков
Конфиденциальные документы и другие информационные активы, требующие защиты, могут быть распределены по классификациям с определенными уровнями важности или секретности (например, “Для служебного пользования”, “Конфиденциально”, “Секретно” и “Совершенно секретно”). Их цифровые отпечатки классифицируются аналогично, так что классификация каждого уровня содержит отпечатки информации соответствующего уровня важности. Каждая классификация представляет собой контейнер, в котором хранятся цифровые отпечатки образцов информации, отнесенной к определенному уровню важности или секретности. Классификации упорядочиваются в соответствии с этим уровнем.
DeviceLock предоставляет ряд встроенных классификаций и позволяет добавлять дополнительные пользовательские классификации. При необходимости их порядок по степени важности можно изменить; однако уровень встроенной классификации “Открытая информация” всегда ниже уровня любой другой классификации и не может быть поднят. Цифровые отпечатки из классификации “Открытая информация” имеют минимально возможный уровень независимо от того, встречаются ли они в других классификациях или нет.
Цифровые отпечатки документов и файлов
Набор хэшей, однозначно идентифицирующих документ или файл и его содержимое, называется цифровым отпечатком этого документа или файла. Отпечатки образцов документов и файлов, классификация которых известна, могут быть сохранены в базе данных, где им присваивается та же классификация. Затем проверяемые документы и файлы можно классифицировать путем сравнения их отпечатков с отпечатками из базы данных. Таким образом, накопление и хранение отпечатков играет ключевую роль в последующей классификации документов и файлов.
База данных цифровых отпечатков
Сервер DeviceLock Enterprise Server хранит цифровые отпечатки предоставленных ему образцов информации (таких как документы и файлы) в базе данных отпечатков, и позволяет управлять отпечатками, хранящимися в этой базе данных. Отпечатки группируются согласно классификации их источника. Например, отпечатки образцов “секретных” документов попадают в классификацию “Секретно”.
База данных обслуживается задачами, выполняемыми на сервере. Для каждой классификации можно создать задачи, которые обрабатывают определенные источники информации (например, наборы документов), специально подобранные для данной классификации. Например, задача для классификации “Конфиденциально” может быть настроена на обработку папки с образцами “конфиденциальных” файлов. Отпечатки, созданные такой задачей, относятся к классификации “Конфиденциально” и могут быть использованы для идентификации других документов или файлов как “конфиденциальных” путем сопоставления отпечатков этих документов или файлов с отпечатками образцов “конфиденциальных” файлов.
Процент соответствия
При проверке источника информации (например, документа или файла) DeviceLock может сравнивать цифровые отпечатки источника с отпечатками определенной классификации из базы данных и вычислять их процент соответствия. Если процент соответствия превышает установленный порог, DeviceLock соответствующим образом классифицирует проверенную информацию. Для “секретных” документов порог соответствия может быть относительно низким, так как даже небольшие фрагменты таких документов могут содержать очень важную информацию. И наоборот, для того, чтобы документ был признан “несекретным”, большое количество его фрагментов должно соответствовать образцам “несекретных” документов, поэтому порог соответствия должен быть относительно высоким. Значение порога соответствия выбирается при настройке контентной группы отпечатков документов для контентно-зависимых правил.
Процент соответствия вычисляется как большее из двух значений:
Процент элементов отпечатков источника, которые соответствуют отпечаткам из определенной классификации в базе данных
Общий процент элементов отпечатков из определенной классификации в базе данных, которые соответствуют отпечатку источника
Первое значение отвечает ситуации, когда источник содержит фрагменты различных образцов конфиденциальных информации; второе значение позволяет правильно классифицировать источник, содержащий образцы конфиденциальной информации наряду с большим количеством открытой информации. Вместе эти два значения позволяют корректно обрабатывать большинство случаев идентификации контента на основе цифровых отпечатков.
Нормализация отпечатков
Чтобы оптимизировать и ускорить процесс сопоставления отпечатков, отпечатки в базе данных подвергаются нормализации: элементы отпечатков, попавших в классификацию “Открытая информация”, удаляются из всех отпечатков, хранящихся в других классификациях. Предполагается, что такие документы заведомо не содержат конфиденциальной информации. Если документ попал в классификацию “Открытая информация”, то содержащаяся в нем информация не будет идентифицирована как “секретная” или “конфиденциальная”, даже если ее отпечатки имеются в других классификациях.