Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,593

ESTIMATION OF THE DISTRIBUTION DENSITY FUNCTION USING THE MORLET WAVELET

Isaeva E.V. 1
1 Novosibirsk State Technical University
To solve most of the problems that arise as a result of statistical data processing, information about the type of distribution of a random variable is required. The problem of estimating the probability density of the distribution of a random variable can be solved by different methods, including the method based on wavelet analysis. The use of wavelets allows one to expand an unknown function into a series in terms of some finite set of orthonormal basis functions. As such a set, one can use a system of functions defined on the same interval as the range of values of a random variable. Within the framework of this work, a wavelet estimate of the distribution density of a random variable constructed using the Morlet wavelet will be considered. It has been established that the Morlet of the mother wavelet is not normalized, which means that the system of basic functions built with its help also does not have this property. Therefore, when constructing a wavelet for estimating the distribution density of a random variable with its help, it is required to introduce a normalization factor that will allow leveling this disadvantage of the mother wavelet. The value of the normalization factor obtained in the work makes it possible to improve the quality of the reconstruction of the density function. The influence on the quality of wavelet estimates of the sample size and the number of coefficients of the expansion of a function into a series in the expression for estimating the distribution density is studied. It has been established that the quality of the wavelet estimate significantly depends on the smoothing parameter and there is its best value. To quantify the degree of closeness of the distribution density function and its wavelet estimate, a fit test was carried out using the chi-square criterion, which showed that the choice of this wavelet as the base one provides a qualitative restoration of the density function.
assessment wavelet
wavelet-analysis
wavelet Morlet
function of density
assessment of function of density wavelet
hi-square criteria
smoothing parameter
a computing experiment

Статистическая обработка данных зачастую связана с исследованием свойств случайных величин, характеризующих те или иные особенности изучаемого объекта. Важной характеристикой, которая несет в себе максимально возможный объем полезной информации об изучаемых случайных величинах, является функция плотности распределения. Следовательно, задача восстановления функции плотности по имеющимся статистическим данным является очень актуальной. Существуют различные методы для ее решения, в частности метод, основанный на вейвлет-анализе [1, 2], который на сегодняшний день динамично развивается и широко применяется для аппроксимации различных функций [3, 4]. Ранее такой подход был реализован с использованием вейвлетов Хаара, DOG, «Мексиканская шляпа» и Литлвуда – Пэли [5–7], а проведенные исследования подтвердили его эффективность. В данной работе исследуются вейвлет-оценки функции плотности распределения, построенные на основе вейвлета Морле.

Для этого рассмотрим выборку Isa001.wmf, заданную на произвольном отрезке [c, d] , где Isa002.wmf. Выборка состоит из независимых значений случайной величины ξ. Отметим, что информации о функции плотности распределения f(t) случайной величины ξ не имеется. Необходимо построить вейвлет-оценку f̂n(t) плотности распределения на основе имеющихся данных.

Вейвлет-оценки функции плотности распределения

Вейвлет-оценка функции плотности распределения Isa004.wmf случайной величины, согласно [1, 2] может быть представлена в виде следующего ряда:

Isa005.wmf, (1)

где ψi(t) – ортонормированные базисные функции, N – параметр сглаживания (количество членов ряда), Isa006.wmf – коэффициенты разложения, которые выражаются следующим соотношением:

Isa007.wmf. (2)

Если подставить (2) в выражение (1), то получим вейвлет-оценку функции плотности распределения в следующем виде

Isa008.wmf, (3)

где Isaeva3.pdf.

В роли базисных функций ψi(t) можно выбрать предложенную в [1, 2] систему функций, которая ортонормирована на отрезке [0, 1] и определяется следующим образом:

Isaeva3.pdf, (4)

где ψ(t) – материнский вейвлет, k ≥ 0, 1 ≤ j ≤ 2k и i = 2k + j. Отметим, что выражение (4) выполняется для всех i > 1, а в случае i = 1 полагают, что ψ1(t) = 1 для всех t ∈ [0, 1], иначе ψ1(t) = 0.

Так как выбранная система базисных функций ψi(t) определена на отрезке [0, 1], необходимо выполнить переход к ортонормированной системе функций ψ̃i(t) заданной на отрезке [c, d], который соответствует области определения случайной величины ξ.

Согласно [5–7] переход от одной системы базисных функций к другой выражается следующим соотношением

Isa013.wmf. (5)

Тогда вейвлет-оценка функции плотности распределения f̂n(t) на произвольном отрезке [c, d] определяется выражением (3), где в качестве базисных функций используются функции Isa015.wmf.

Согласно определению ортонормированной системы функций [1, 2] система базисных функций ψi(t) должна удовлетворять двум условиям:

1) Isa016.wmf,

для всех i ≠ j;

2) Isaeva3.pdf.

Следовательно, из соотношения (4) и свойств нормы материнского вейвлета [2] получаем

Isaeva4.tif

Isaeva4.tif(6)

где Isa020.wmf.

Таким образом, выполнение этих условий семейством ψi(t) зависит от выбора порождающего их материнского вейвлета ψ(t). Если материнский вейвлет ортонормированный, то и система функций ψi(t) также будет являться ортонормированной.

Перейдем к исследованию вейвлет-оценки функции плотности (3), где в качестве материнского вейвлета выбран вейвлет Морле [8–10].

Оценивание функции плотности распределения с помощью материнского вейвлета Морле

Аналитическая запись материнского вейвлета Морле [8–10] определяется соотношением

Isa021.wmf. (7)

Тогда система функций (4) на отрезке [0, 1] выражается следующим образом:

Isa022.wmf, (8)

где i, k, j такие же, как в (4). Известно, что материнский вейвлет Морле является ортогональным [2, 8–10]. Покажем, что вейвлет Морле не является нормированным, как следствие, система функций (8) тоже.

Утверждение 1. Пусть Isa023.wmf – материнский вейвлет Морле, порождающий систему функций Isa024.wmf, которая принимает вид

Isaeva4.tif,

где k ≥ 0, 1 ≤ j ≤ 2k и i = 2k + j. Тогда для любых i, k, j Isa026.wmf

Доказательство.

Аналитическая запись материнского вейвлета Морле выражается соотношением

Isa027.wmf.

Тогда по определению нормы в L2(R) получаем

Isa028.wmf

Isaeva4.tif.

Поскольку для любых k ≥ 0, 1 ≤ j ≤ 2k, где i = 2k + j выполняется равенство (6), то норма Isa030.wmf. Утверждение доказано.

Отсюда следует, что базис (4) на основе материнского вейвлета Морле не нормирован: Isa031.wmf. В соответсвии с [2, 8] такая система базисных функций может быть использована для построения (3), если ввести нормировочный множитель Isa032.wmf.

Тогда система функций (8) становится ортонормированной и принимает вид

Isa033.wmf, (9)

где i, k, j аналогичны (4), Isa034.wmf.

С учетом (9) переход от отрезка [0, 1] к отрезку [c, d], который соответствует области определения наблюдаемой случайной величины, дает результат

Isa035.wmf, (10)

где i, k, j аналогичны (4), Isa036.wmf.

Тогда выражение (3), где в качестве базисных функций используются функции (10), является вейвлет-оценкой функции плотности распределения f̂n(t) на произвольной области определения [c, d] на основе материнского вейвлета Морле.

Исследование точности вейвлет-оценки на основе вейвлета Морле

С помощью серии вычислительных экспериментов была исследована точность вейвлет-оценки на основе материнского вейвлета Морле. Для этого были смоделированы выборки из независимых значений случайной величины ξ объемом n = 300; 500; 1000. Распределение случайной величины ξ соответствует стандартному нормальному закону. Для данных выборок было выполнено оценивание функции плотности распределения с помощью вейвлета Морле при изменении числа членов ряда N от 4 до 40. На рис. 1 представлены результаты оценивания функции плотности для выборки объемом n = 1000 при N = 5; 15; 25. Качество оценивания f(t) напрямую зависит от параметра сглаживания. Если количество членов ряда оказывается недостаточным, то вейвлет-оценка не соответствует исходной функции плотности распределения из-за существенного отклонения. Если количество членов ряда велико, то оценка функции f̂n(t) имеет дополнительные максимумы и минимумы, что никак не соответствует модельной плотности распределения. Как в первом, так и во втором случае восстановленная функция плотности достаточно сильно отличается от истинной. Таким образом, в ходе вычислительных экспериментов было получено наилучшее значение параметра сглаживания для вейвлета Морле N = 5. Результаты моделирования для выборок с меньшими объемами n = 300; 500 подтвердили приведенные выше выводы.

Найденное выше значение параметра сглаживания N = 5 было использовано для исследования точности восстановления функции плотности от объема выборки n. Для этого были построены вейвлет-оценки (3) на основе материнского вейвлета Морле для рассматриваемых ранее выборок объема n = 300; 500; 1000. На рис. 2 представлены полученные результаты.

Isaeva1.pdf

Рис. 1. Результаты оценивания функции плотности с помощью вейвлета Морле

Isaeva2.pdf

Рис. 2. Результаты оценивания функции плотности с помощью вейвлета Морле

Значение статистики χ2

n

T

Isa043.wmf

χ2

α ≤ 0,05

α ≤ 0,01

300

8

14,067

18,475

10.589

500

10

19,919

21,666

11.413

1000

11

18,307

23,209

11.884

Эти вычислительные эксперименты подтвердили предположение о том, что объем данной выборки влияет на точность восстановления функции плотности. Из рис. 2 видно, что выборки с наименьшим объемом имеют наибольшую величину отклонения истинной функции плотности распределения от её оценки.

Отметим, что подобные исследования вейвлет-оценок на основе вейвлет Морле проводились для выборок, состоящих из случайных величин, имеющих другие законы распределения, в частности рассматривалось гамма распределение и экспоненциальное с параметром λ = 2. Результаты моделирования также показали, что с увеличением объема выборки точность вейвлет-оценки повышается.

Поверка степени близости между истиной функцией плотности распределения и ее оценкой для 1000 выборок объема n = 300; 500; 1000 состоящих из множества независимых значений случайной величины ξ, была проведена по критерию χ2 [11]:

Isa039.wmf, (11)

где T – число интервалов, полученное с помощью формулы Стерджеса [11], ti – середина i-го интервала. В таблице приведены критические значения критерия Isa043.wmf при числе степеней свободы v = T – 1 для α ≤ 0,05 и α ≤ 0,01. Также в таблице представлены результаты, из которых видно, что значения величины χ2 намного меньше Isa043.wmf, что подтверждает близость вейвлет-оценки Isa042.wmf и теоретической функции плотности f(t).

Аналогичным образом была выполнена оценка степени близости Isa050.wmf и f(t) для случайных величин, имеющих другие законы распределения, а именно гамма распределение и экспоненциальное с параметром λ = 2. Результаты моделирования подтвердили работоспособность данного метода оценивания.

Заключение

В работе была рассмотрена оценка функции плотности распределения случайной величины на основе вейвлета Морле. Сформулировано и доказано утверждение о том, что данный материнский вейвлет является ненормированным, следовательно, и система базисных функций, построенная с его помощью. Получено значение нормировочного множителя, которое позволяет улучшить качество восстановления функции плотности. Установлено, что качество оценки функции плотности существенно зависит от параметра сглаживания и в ходе вычислительных экспериментов получено его наилучшее значение. Показано, что объем выборки оказывает влияние на качество восстановления функции плотности распределения. В частности, в случае малого объёма выборки наблюдается большее отклонение вейвлет-оценки плотности распределения от теоретической функции плотности. Поверка по критерию хи квадрат количественной степени близости между истиной функцией плотности распределения и ее оценкой показала, что выбор вейвлета Морле в роли базового обеспечивает качественное восстановление функции плотности.