Информационные системы и технологии УДК 004.67 В.В. РЯБОКОНЬ КАНОНИЗАЦИЯ МАССИВОВ БИНАРНЫХ ДАННЫХ В статье рассматривается необходимость предварительной обработки содержимого массивов бинарных данных для их идентификации. <...> Рассмотрены варианты представления массивов бинарных данных и предложен подход к их канонизации, учитывающий особенности синтаксиса языков программирования высокого уровня. <...> Идентификация массивов бинарных данных в ходе проведения сертификационных испытаний программного обеспечения является неотъемлемым элементом процедур контроля информационных объектов [1]. <...> В исходных текстах дистрибутивов операционных систем такими массивами являются микропрограммные прошивки, зашифрованные драйверы периферийных устройств, а также различные служебные данные для встроенных криптографических алгоритмов. <...> Пример подобного массива бинарных данных, взятого из исходных текстов ядра операционной системы Linux 3.11.1, представлен на рисунке 1. <...> Рисунок 1 – Пример массива бинарных данных в исходных текстах ядра операционной системы Linux Для идентификации массива бинарных данных осуществляется переход от текстового представления содержимого массива в виде строк файла исходных текстов к последовательности байт, кодирующих символы, или непосредственно к численному представлению. <...> В первом случае будет присутствовать избыточность, поскольку, помимо обезличенной информационной части последовательность, байт будет содержать коды служебных символов, таких, как пробелы, запятые, обозначения системы счисления и так далее. <...> Во втором случае многообразие возможных вариантов задания массива бинарных данных приводит к неопределенности преобразования содержимого в численное представление. <...> Подобное многообразие возникает вследствие возможности использования в языках программирования высокого уровня нестандартных или недокументированных типов данных. <...> Возникающая неопределенность <...>