На протяжении последних нескольких лет важным направлением повышения уровня защищенности сетевых ресурсов информационных систем (РИС) является разработка и внедрение эффективных нейросетевых средств (НСР) распознавания кибератак на эти ресурсы [1 – 3, 6]. Хотя анализ источников [3, 6 – 8] и указывает на достаточно большой научно-практический задел в этом направлении, однако этот же анализ указывает на недостаточную эффективность обучения нейросетевых моделей (НСМ), являющихся основой указанных НСР. Из-за этого недостатка повышается время построения НСР и уменьшается точность распознавания кибератак. Также результаты [3, 4] позволяют утверждать, что повысить эффективность обучения современных НСМ возможно путем повышения качества учебных примеров за счет отображения в ожидаемом выходном сигнале близости эталонов распознаваемых состояний защищенности. Таким образом, целью данного исследования является разработка формализированной процедуры определения ожидаемого выходного сигнала для нейросетевой модели распознавания кибератак на сетевые ресурсы информационных систем.
Поскольку предусмотрено распознавать кибератаки на основании анализа соответствующих характеристик РИС, то предлагается, чтобы близость этих характеристик отображалась в мере схожести кибератак между собой. Также, базируясь на результатах [2, 3], определено, что в базовом случае выходной сигнал НСМ реализуется с помощью одного нейрона в выходном слое Ny =1, где Ny – количество нейронов в выход- ном слое.
При использовании сигмоидальной функции активации нейрона выходного слоя, что характерно для НСМ на базе многослойно персептрона, выходной сигнал y находится в пределах от 0 до 1.
При распознавании каждой из возможных кибератак, а также каждому из возможных безопасных состояний сетевого РИС ставится в соответствие некоторый диапазон величин выходного сигнала. В дальнейшем для краткости распознаваемые виды кибератак и распознаваемые безопасные состояния РИС будем называть состояниями защищенности.
Не теряя общности рассуждений, можно предположить, что величины диапазонов для разных состояний защищенности разные. Кроме того, для учебных примеров, которые отвечают эталонам состояний защищенности, выходной сигнал будет равен середине указанного диапазона.
В случае использования сигмоидальной функции активации нейронов выходного слоя и при условии равномерного квантования диапазона возможных значений y ожидаемый выходной сигнал для эталона произвольного і-го состояния защищенности рассчитывается так:
, (1)
где Ks – количество распознаваемых состояний защищенности, і – номер состояния защищенности.
Схожесть состояний защищенности в выражении (1) возможно учесть только за счет того, что схожие состояния защищенности должны иметь близкие номера. Для этого необходимо провести числовую оценку близости состояний защищенности. Известные аналитические методы такого расчета [4] отличаются большой сложностью и низкой надежностью, что затрудняет их эффективное использование для распознавания кибератак на сетевые РИС. В то же время, анализ и распознавание кибератак на сетевые РИС – это задачи, которые достаточно эффективно решаются экспертами в области защиты информации [3, 5]. Поэтому представляется целесообразным определять числовую оценку степени схожести параметров кибератак и параметров безопасных состояний на основе экспертных данных.
Базируясь на результатах [5], предлагается использовать статистические методы обработки экспертных данных. В этом случае полученные от экспертов количественные данные обрабатываются с целью оценки коллективного мнения экспертной группы, оценки согласованности мнений экспертов и оценки их компетентности. Для определения оценок используются статистические методы точечного и интервального оценивания. Для этого рекомендуется, чтобы количество экспертов было не менее 10.
Рассмотрим процесс экспертного оценивания степени близости состояний защищенности. Пусть в результате опроса экспертной группы, которая состоит из m участников, получены следующие данные:
, (2)
где – оценка степени схожести n-го объекта (состояния защищенности) m-м экспертом, N – количество объектов (состояний защищенности), M – количество экспертов.
Средняя коллективная оценка n-го состояния защищенности рассчитывается с помощью формулы:
, (3)
где xn,m – оценка степени схожести n-го состояния защищенности m-м экспертом, n =1…N.
Дисперсия средней коллективной оценки определяется так:
. (4)
Для определения статистической значимости полученных результатов необходимо указать доверительный интервал, в который оцениваемая величина попадает с заданной доверительной вероятностью P.
Задав вероятность ошибки Рп (с учетом уровня значимости), можно определить интервал, в который оцениваемая величина попадает с вероятностью (1 – Рп):
. (5)
Величина определяет границы доверительного интервала и рассчитывается так:
, (6)
где – коэффициент, зависящий от заданной доверительной вероятности Р.
Считается, что оцениваемая величина имеет нормальное распределение с центром xi и дисперсией ?. Коэффициент tp имеет распределение Стьюдента с (N–1) степенями свободы и определяется с помощью табличных значений [5].
Степень согласованности экспертных мнений определяется с помощью коэффициента вариации , который рассчитывается по формуле:
. (7)
Рассчитанный с помощью выражения (7) коэффициент вариации ?n определяет относительную величину диапазона изменения оценок экспертов относительно среднего значения коллективной оценки xn. При полной согласованности мнений экспертов, когда все , коэффициент вариации .
Отметим, что полученные выражения (1) – (7) составляют основу математического обеспечения отдельных операций процедуры определения ожидаемого выходного сигнала нейросетевой модели распознавания кибератак на сетевые ресурсы. При этом порядок выполнения этих операций соответствует номерам указанных выражений.
Для верификации полученных теоретических результатов проведены экспериментальные исследования, в ходе которых была построена и обучена НСМ, предназначенная для распознавания двух видов кибератак и одного безопасного состояния. Основная гипотеза эксперимента – использование разработанной процедуры позволяет уменьшить количество учебных итераций, необходимых для достижения заданной ошибки обучения.
В качестве источника данных для НСМ использована база данных KDD-99, в которой записаны значения 41 параметра для сетевых соединений, соответствующих 22 видам кибератак и одному безопасному состоянию. В эксперименте распознавались четыре типа кибератак вида R2L, которые направлены то, чтобы незарегистрированный пользователь получил доступ к компьютеру со стороны удаленной машины. Типы распознаваемых кибератак: buffer_overflow, perl, loadmodule и rootkit. Также предусмотрено распознавание безопасного соединения.
Построение НСМ реализовано на базе методологии, разработанной в [1, 4, 5]. В качестве базового вида НСМ использован двухслойный персептрон с входным и выходным нейроном. Количество входных параметров выбрано, исходя из структуры записей KDD-99, а количество выходных параметров мотивировано упрощением структуры модели. Выбор количества учебных примеров P=1000 базировался на использовании выражения (16), обоснованного в [6]:
, (16)
где – минимальное количество учебных примеров.
При формировании учебной выборки предусмотрено одинаковое количество примеров для каждого из распознаваемых состояний защищенности.
Количество скрытых нейронов рассчитано с использованием выражения (17), также определенного в [1, 6]:
, (17)
где Round(X) – операция определения ближайшего целого числа от аргумента X.
Проведено две серии численных экспериментов, направленных на определение количества учебных итераций НСМ для достижения безошибочного распознавания учебных примеров. В первом эксперименте ожидаемый выходной сигнал определялся с помощью выражения (7) с использованием предпосылки, что состояния защищенности ранжированы по алфавиту. Во втором эксперименте ожидаемый выходной сигнал определялся с помощью предложенной процедуры.
В результате экспериментов установлено, что при использовании предложенной процедуры определения ожидаемого значения выходного параметра количество учебных итераций для достижения безошибочного запоминания НСМ всех учебных примеров уменьшилось приблизительно на 20 %, что подтверждает принятую гипотезу. Также в первом приближении можно считать, что за счет уменьшения количества учебных итераций примерно на 20 % возрастет оперативность создания НСМ.
Таким образом, в результате проведенных исследований разработана процедура определения ожидаемого выходного сигнала нейросетевой модели распознавания кибератак на сетевые ресурсы, которая за счет учета в таком сигнале близости распознаваемых эталонов кибератак и эталонов распознаваемых безопасных состояний позволяет повысить оперативность создания указанных моделей. При этом проведенные численные эксперименты показали, что применение разработанной процедуры для обучения нейросетевой модели, позволяет приблизительно на 20 % повысить оперативность создания такой модели.