Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,556

DYNAMIC DATA DEGRADATION AS A TOOL TO IMPROVE THE STABILITY OF GENERATIVE-ADVERSARIAL NETWORKS

Ananchenko I.V. 1, 2, 3 Dobrovolskiy D.K. 2 Uruymagov Ya.G. 2
1 Saint Petersburg National Research University of Information Technologies
2 Saint Petersburg State Technological Institute (Technical University)
3 Baltic State Technical University “VOENMEH” named after D.F. Ustinov
1394 KB
The problem of the stability of generative adversarial neural networks when working with noisy or distorted input data is considered, which significantly limits their application in real-world conditions. To increase the reliability of models, it is proposed to use the method of dynamic data degradation during training, in which images are distorted directly during their submission to the neural network. The aim of the study is to increase the stability of generative adversarial networks to distorted and noisy input data by introducing a mechanism of dynamic data degradation “on the fly” during training, to evaluate the impact of the approach on the quality of generation and the generalization ability of models in an unstable input environment. The application of various types of distortions, such as Gaussian blur, noise, compression artifacts, and resolution reduction, was considered, starting from the 101st iteration of training. The models were compared using quality metrics: root mean square error, peak signal-to-noise ratio, and structural similarity. The experiments showed improvement in all indicators: the structural similarity value increased by more than fifteen percent, the root mean square error decreased, and the signal-to-noise ratio increased, indicating the model’s increased resistance to distortions. The model showed better generalization when working with previously unencountered types of noise, without a significant increase in computational costs. Thus, dynamic data degradation during training can be used as a tool to increase the robustness of generative neural networks, which is especially important for tasks of increasing clarity and restoring images in unstable conditions.
dynamic data degradation
image generation
stability of neural networks

Введение

Генеративно-состязательные сети (GAN) показывают хорошие результаты в задачах генерации и восстановления визуальных данных, но чувствительны к качеству обучающего набора [1, 2]. Нестабильность GAN при работе с зашумленными, искаженными или нетипичными входами существенно ограничивает применимость моделей в реальных условиях [3]. Один из перспективных подходов к решению этой проблемы – динамическое ухудшение данных «на лету», при котором входные изображения подвергаются искусственным искажениям непосредственно в процессе обучения. Метод позволяет повысить устойчивость модели к шуму, артефактам и нестандартным ситуациям без необходимости расширения датасета.

Рассмотрим влияние on-the-fly деградации данных на устойчивость и обобщающую способность модели SRGAN, являющейся модификацией стандартной GAN, проанализируем типы применяемых искажений, архитектурные особенности обучаемых моделей и метрики оценки качества генерации [4]. Эксперименты показывают, что динамическое ухудшение обучающей выборки способствует формированию более адаптивных признаков, повышая стабильность и точность генерации в условиях деградированных входных данных [5]. Предложенный подход может быть полезен в задачах реставрации изображений, видеоапскейлинга и других направлениях, где важно обеспечение качества при работе с несовершенными данными.

Цель исследования – повышение устойчивости генеративно-состязательных сетей к искаженным и зашумленным входным данным путем внедрения механизма динамического ухудшения данных «на лету» в процессе обучения, оценка влияния рассматриваемого подхода на качество генерации и обобщающую способность моделей в условиях нестабильной входной среды.

Материалы и методы исследования

Разработана методика повышения устойчивости генеративно-состязательных сетей (GAN) за счет применения динамического ухудшения входных данных в процессе обучения. Предложенный подход реализован на базе модифицированной архитектуры ESRGAN, адаптированной для задач суперразрешения и восстановления изображений [6]. Основное внимание уделялось моделированию различных типов деградации, включая гауссовское размытие, шум, JPEG-артефакты и понижение разрешения (downscaling) [7, 8]. Деградация применялась к изображениям низкого разрешения (LR) в случайные моменты обучения, начиная с 100-й эпохи, что обеспечивало постепенное повышение устойчивости модели к разнообразным искажениям. В качестве обучающего набора использовался датасет DIV2K, содержащий 800 пар изображений высокого (HR) и низкого (LR) разрешения. Все изображения масштабировались до размеров 1920×1080 (HR) и 480×270 (LR), нормализовались в диапазоне [−1, 1] и подавались в модель батчами по 2 изображения [9]. Обучение осуществлялось с использованием фреймворка PyTorch и оптимизатора Adam с параметрами [10]:

β1 = 0.9, β2 = 0.99,

learning rate = 2×10–4.

Комбинированная функция потерь генератора [11]:

missing image file,

где

‒ средняя абсолютная ошибка (L1 loss),

‒ Lpers – перцептивная ошибка, вычисляемая на активациях модели VGG-19,

‒ состязательная потеря (LSGAN),

‒ Total Variation Loss, подавляющая артефакты.

Для оценки качества работы модели использовались метрики:

1. Среднеквадратичная ошибка (MSE) – метрика, измеряющая разницу между значениями пикселей исходного и обработанного изображений. Рассчитывается как среднее значение квадратов разницы между соответствующими пикселями изображения:

missing image file,

где IHR – эталонное изображение, IGEN – результат генерации, N – число пикселей.

Достаточно простая, но эффективная метрика, для которой чем меньше получившееся значение, тем лучше результат. Однако эта оценка не всегда хорошо отражает восприятие человека, так как мелкие, не заметные глазу изменения могут сильно повлиять на конечный результат.

2. Пиковое отношение сигнал/шум (PSNR) – метрика, измеряющая отношение между максимальным возможным значением сигнала (яркости пикселей) и уровнем шума (разницей между исходным и обработанным изображением) [6].

missing image file,

где MAX = 1.0 для нормализованных изображений.

Чем выше полученное значение – тем лучше качество изображения. Но, как и в случае с MSE, PSNR не всегда коррелирует с человеческим восприятием.

3. Структурное сходство (SSIM) [6]:

missing image file,

где μ, σ – средние и стандартные отклонения по яркости, σxy – ковариация, C1 и C2 – стабилизирующие константы.

Также использовались методы визуальной оценки и сохранения выходных изображений на различных этапах обучения для анализа качества генерации. Все эксперименты проводились с использованием ускорения на GPU и смешанной точности (AMP), что позволило значительно сократить время обучения при сохранении высокой точности вычислений.

Результаты исследования и их обсуждение

Для оценки эффективности предлагаемого метода динамического ухудшения данных «на лету» проведены серии экспериментов, в которых сравнивались версии генеративно-состязательной сети, обученные с использованием деградации и без нее [12, 13]. В качестве контрольных данных использовались изображения из валидационного набора DIV2K, подвергавшиеся разнообразным искажениям, включая гауссовский шум, импульсный шум, размытие и JPEG-артефакты [14]. Результаты выполненных авторами экспериментов приведены в таблице и проиллюстрированы графиками (рис. 1–3).

Сравнение метрик

Эпоха

MSE

PSNR

SSIM

Без динамич. дегр.

С динамич. дегр.

Без динамич. дегр.

С динамич. дегр.

Без динамич. дегр.

С динамич. дегр.

50

0,0299

0,0297

23,9398

23,8477

0,4426

0,4479

75

0,0282

0,0281

24,0224

23,8870

0,4891

0,4922

100

0,0265

0,0294

24,9363

23,5025

0,5208

0,4606

125

0,0238

0,0217

25,0879

25,3604

0,5570

0,6055

150

0,0210

0,0176

25,7007

26,4130

0,6018

0,6922

175

0,0194

0,0139

26,1879

27,3653

0,6244

0,7364

200

0,0175

0,0103

25,8525

27,7281

0,6739

0,7887

225

0,0159

0,0070

26,5246

28,0187

0,7171

0,8472

250

0,0145

0,0066

27,1937

28,7353

0,7465

0,8619

275

0,0128

0,0057

27,4272

28,7841

0,7875

0,9183

300

0,0114

0,0053

27,5895

29,6268

0,8242

0,9659

Источник: составлено авторами.

missing image file

Рис. 1. График сравнения метрики MSE для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 2. График сравнения метрики PSNR для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 3. График сравнения метрики SSIM для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 4. Исходное масштабированное изображение Источник: взято из датасета DIV2K

Результаты экспериментов показали, что внедрение on-the-fly деградации повышает устойчивость модели к нестабильным входным данным. В частности, среднее значение метрики SSIM увеличилось на 15 % по сравнению с базовой моделью, обученной на «чистых» данных. Также наблюдалось снижение значения MSE и рост PSNR, что свидетельствует о более точной реконструкции исходных изображений. Было выявлено, что модели, обученные с использованием деградации, демонстрируют лучшую генерализацию при работе с ранее не встречавшимися типами искажений, что проявляется в сохранении структуры и текстур изображения даже при значительных отклонениях от тренировочного распределения. На субъективном уровне результаты генерации таких моделей характеризуются более четкими границами объектов, снижением артефактов и меньшим визуальным шумом.

missing image file missing image file

Рис. 5. Изображения, восстановленные нейросетью, слева модель без деградации данных, справа – с деградацией Источник: получено авторами в результате проведенного исследования

Отметим, что эффект устойчивости не был достигнут ценой существенного роста вычислительной сложности. Благодаря постепенному включению ухудшений в ходе обучения (начиная с 100-й эпохи) модель имела возможность сначала выучить базовые закономерности, а затем адаптироваться к сложным условиям, что позволило избежать проблем переобучения и сохранить стабильность процесса оптимизации. С результатом работы моделей с деградацией данных и без ее использования можно ознакомиться на рис. 4–5.

Таким образом, предложенный подход на основе динамической деградации данных в процессе обучения подтверждает возможность использования на практике, как инструмент повышения устойчивости GAN к реальным искажениям. Метод может быть полезен в задачах, связанных с реставрацией, суперразрешением и генерацией изображений в нестабильных или ограниченных по качеству условиях [15]. Видится перспективным дальнейшее исследование по расширению использования рассмотренного подхода, включая его адаптацию к видео-данным и применению в мультимодальных генеративных архитектурах [16].

Заключение

Результаты проведенного исследования подтвердили эффективность метода динамического ухудшения данных «на лету» для повышения устойчивости генеративно-состязательных сетей. Введение искажений в процессе обучения позволило добиться значимых улучшений по ключевым метрикам качества (MSE, PSNR, SSIM), что свидетельствует о более точной реконструкции изображений и снижении визуальных артефактов. При этом подход не потребовал существенного увеличения вычислительных ресурсов, благодаря поэтапному включению деградаций, начиная со 100-й эпохи обучения.

Особый интерес представляет выявленная способность моделей, обученных с деградацией, успешно обрабатывать ранее не встречавшиеся искажения, что указывает на рост обобщающей способности и адаптивности архитектуры. Это открывает перспективы применения метода в условиях ограниченного или нестабильного качества данных, таких как восстановление поврежденных изображений, апскейлинг в режиме реального времени и медицинская визуализация.

Таким образом, динамическое ухудшение данных может быть рекомендовано как надежный и универсальный механизм повышения устойчивости GAN в прикладных задачах. В дальнейшем представляется целесообразным расширение подхода на видеоформаты, а также исследование его эффективности в рамках мультимодальных генеративных моделей.