ДИНАМИЧЕСКОЕ УХУДШЕНИЕ ДАННЫХ КАК ИНСТРУМЕНТ ПОВЫШЕНИЯ УСТОЙЧИВОСТИ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ

Ананченко И.В. 1, 2, 3 Добровольский Д.К. 2 Уруймагов Я.Г. 2

1 ФГАОУ ВО «Национальный исследовательский университет ИТМО»

2 ФГБОУ ВО «Санкт-Петербургский государственный технологический институт (технический университет)»

3 ФГБОУ ВО «Балтийский государственный технический университет «ВОЕНМЕХ» имени Д.Ф. Устинова»

Добровольский Д.К. - разработка концепции, анализ данных, проведение исследования, визуализация результатов, написание черновика рукописи, написание рукописи – рецензирование и редактирование

Уруймагов Я.Г. - разработка концепции, анализ данных, методология исследования, предоставление ресурсов, разработка программного обеспечения, валидация результатов, визуализация результатов

Ананченко И.В. - работа с данными, административное руководство исследовательским проектом, научное руководство, валидация результатов, написание черновика рукописи, написание рукописи – рецензирование и редактирование

Рассматривается проблема устойчивости генеративных состязательных нейросетей при работе с зашумленными или искаженными входными данными, что существенно ограничивает их применение в реальных условиях. Для повышения надежности моделей предлагается использовать метод динамического ухудшения данных в процессе обучения, при котором изображения искажаются непосредственно во время подачи в нейросеть. Цель исследования – повышение устойчивости генеративно-состязательных сетей к искаженным и зашумленным входным данным путем внедрения механизма динамического ухудшения данных «на лету» в процессе обучения, оценка влияния рассматриваемого подхода на качество генерации и обобщающую способность моделей в условиях нестабильной входной среды. Рассмотрено применение различных типов искажений, таких как гауссовское размытие, шум, артефакты сжатия и уменьшение разрешения, начиная со 101-й итерации обучения. Модели сравнивались по метрикам качества – среднеквадратичной ошибке, пиковому отношению сигнала к шуму и структурному сходству. Эксперименты показали улучшение всех показателей: значение структурного сходства увеличилось более чем на 15 %, среднеквадратичная ошибка уменьшилась, а отношение сигнала к шуму возросло, что свидетельствует о повышенной устойчивости модели к искажениям. Отмечено лучшее обобщение модели при работе с ранее не встречавшимися типами шумов, без существенного увеличения вычислительных затрат. Таким образом, динамическое ухудшение данных в процессе обучения может использоваться как инструмент повышения устойчивости генеративных нейросетей, что особенно важно для задач увеличения четкости и восстановления изображений в нестабильных условиях.

Статья в формате PDF

1394 KB

динамическое ухудшение данных

генерация изображений

устойчивость нейросетей

1. Ильинская Е.В., Голышева Е.Н., Медведев А.А., Масалитин Н.С. Применение генеративно-состязательных нейросетей для генерации изображений // Научный результат. Информационные технологии. 2024. T. 9. № 1. С. 73–78. DOI: 10.18413/2518-1092-2024-9-1-0-8. EDN: CPJJAA.

2. Zhang S., Qian Z., Huang K., Huang G., Shen C. Robust Generative Adversarial Network // Machine Learning. 2023. Vol. 112. P. 5135–5161. DOI: 10.1007/s10994-023-06367-0.

3. Raj S., Sharma P., Rani S. Generalized and Robust Model for GAN-Generated Image Detection // Pattern Recognition Letters. 2024. Vol. 182. P. 104–112. DOI: 10.1016/j.patrec.2024.04.018.

4. Yang Y., Liu X., Zheng Q. Conditional Dual-Branch Attention GAN for Sonar Image Generation under Noise // Applied Sciences. 2025. Vol. 15, Is. 13. Article 7212. DOI: 10.3390/app15137212.

5. Qu C., Chen X., Xu Q., Han J. Frequency-Aware Degradation Modeling for Real-World Thermal Image Super-Resolution // Entropy 2024. Vol. 26, Is. 209. DOI: 10.3390/e26030209.

6. Никин В.В., Гарина С.В. Обзор методов и средств оценки качества кадров в видео-файле // International journal of professional science. 2020. № 11. С. 56–63. EDN: RPVVGR.

7. Zhang K., Zuo W., Chen Y., Meng D., Zhang L. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising // IEEE Transactions on Image Processing. 2017. Vol. 26, Is. 7. P. 3142–3155. DOI: 10.1109/TIP.2017.2662206.

8. Lin H., Fan J., Zhang Y., Peng D. Generative adversarial image super-resolution network for multiple degradations // IET Image Process. 2020. Vol. 14, Is. 13. P. 4520–4527. DOI: 10.1049/iet-ipr.2020.1176.

9. Иванов А.И., Кубасов И.А., Самокутяев А.М. Тестирование больших нейронных сетей на малых выборках // Надежность и качество сложных систем. 2021. № 1 (33). С. 49–56. DOI: 10.21685/2307-4205-2021-1-5. EDN: NNTIBS.

10. Артемьев Б.В., Власов А.И., Исроилов Ж.О., Мулатола С. Анализ программных библиотек для разработки встраиваемых нейросетевых приложений // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 6. С. 5–12. DOI: 10.18127/j19998554-202306-01. EDN: BVEASU.

11. Zhao H., Gallo O., Frosio I., Kautz J. Loss Functions for Image Restoration with Neural Networks // IEEE Transactions on Computational Imaging. 2017. Vol. 3, Is. 1. P. 47–57. DOI: 10.1109/TCI.2016.2644865.

12. Mahmoud G.M., El-Sayed M.E., Zidan M. GAN-Based Sperm-Inspired Pixel Imputation for Robust Image Reconstruction // Scientific Reports. 2025. Vol. 14. Article 82242. DOI: 10.1038/s41598-024-82242-9.

13. Zhang W., Cui S., Lin Z., Hu W. Hierarchical Feature Fusion and Enhanced Attention Mechanism for Robust GAN-Generated Image Detection // Mathematics. 2025. Vol. 13, Is. 9. Article 1372. DOI: 10.3390/math13091372.

14. Zhu J., Ma C., Zhang Y., He X. A Survey on GAN Techniques for Data Augmentation in Small Datasets // Journal of Big Data. 2019. Vol. 6. Article 60. DOI: 10.1186/s40537-019-0197-0.

15. Sharma P., Kumar M., Sharma H.K. A Robust Ensemble Model for Deepfake Detection of GAN-Generated Images on Social Media // Discover Computing. 2025. Vol. 3, Is. 1. DOI: 10.1007/s10791-025-09538-w.

16. Wang J., Teng G., An P. Video Super-Resolution Based on Generative Adversarial Network and Edge Enhancement // Electronics. 2021. Vol. 10 (4). P. 459. DOI: 10.3390/electronics10040459.

Введение

Генеративно-состязательные сети (GAN) показывают хорошие результаты в задачах генерации и восстановления визуальных данных, но чувствительны к качеству обучающего набора [1, 2]. Нестабильность GAN при работе с зашумленными, искаженными или нетипичными входами существенно ограничивает применимость моделей в реальных условиях [3]. Один из перспективных подходов к решению этой проблемы – динамическое ухудшение данных «на лету», при котором входные изображения подвергаются искусственным искажениям непосредственно в процессе обучения. Метод позволяет повысить устойчивость модели к шуму, артефактам и нестандартным ситуациям без необходимости расширения датасета.

Рассмотрим влияние on-the-fly деградации данных на устойчивость и обобщающую способность модели SRGAN, являющейся модификацией стандартной GAN, проанализируем типы применяемых искажений, архитектурные особенности обучаемых моделей и метрики оценки качества генерации [4]. Эксперименты показывают, что динамическое ухудшение обучающей выборки способствует формированию более адаптивных признаков, повышая стабильность и точность генерации в условиях деградированных входных данных [5]. Предложенный подход может быть полезен в задачах реставрации изображений, видеоапскейлинга и других направлениях, где важно обеспечение качества при работе с несовершенными данными.

Цель исследования – повышение устойчивости генеративно-состязательных сетей к искаженным и зашумленным входным данным путем внедрения механизма динамического ухудшения данных «на лету» в процессе обучения, оценка влияния рассматриваемого подхода на качество генерации и обобщающую способность моделей в условиях нестабильной входной среды.

Материалы и методы исследования

Разработана методика повышения устойчивости генеративно-состязательных сетей (GAN) за счет применения динамического ухудшения входных данных в процессе обучения. Предложенный подход реализован на базе модифицированной архитектуры ESRGAN, адаптированной для задач суперразрешения и восстановления изображений [6]. Основное внимание уделялось моделированию различных типов деградации, включая гауссовское размытие, шум, JPEG-артефакты и понижение разрешения (downscaling) [7, 8]. Деградация применялась к изображениям низкого разрешения (LR) в случайные моменты обучения, начиная с 100-й эпохи, что обеспечивало постепенное повышение устойчивости модели к разнообразным искажениям. В качестве обучающего набора использовался датасет DIV2K, содержащий 800 пар изображений высокого (HR) и низкого (LR) разрешения. Все изображения масштабировались до размеров 1920×1080 (HR) и 480×270 (LR), нормализовались в диапазоне [−1, 1] и подавались в модель батчами по 2 изображения [9]. Обучение осуществлялось с использованием фреймворка PyTorch и оптимизатора Adam с параметрами [10]:

β1 = 0.9, β2 = 0.99,

learning rate = 2×10–4.

Комбинированная функция потерь генератора [11]:

missing image file ,

где

‒ средняя абсолютная ошибка (L1 loss),

‒ Lpers – перцептивная ошибка, вычисляемая на активациях модели VGG-19,

‒ состязательная потеря (LSGAN),

‒ Total Variation Loss, подавляющая артефакты.

Для оценки качества работы модели использовались метрики:

1. Среднеквадратичная ошибка (MSE) – метрика, измеряющая разницу между значениями пикселей исходного и обработанного изображений. Рассчитывается как среднее значение квадратов разницы между соответствующими пикселями изображения:

missing image file ,

где IHR – эталонное изображение, IGEN – результат генерации, N – число пикселей.

Достаточно простая, но эффективная метрика, для которой чем меньше получившееся значение, тем лучше результат. Однако эта оценка не всегда хорошо отражает восприятие человека, так как мелкие, не заметные глазу изменения могут сильно повлиять на конечный результат.

2. Пиковое отношение сигнал/шум (PSNR) – метрика, измеряющая отношение между максимальным возможным значением сигнала (яркости пикселей) и уровнем шума (разницей между исходным и обработанным изображением) [6].

missing image file ,

где MAX = 1.0 для нормализованных изображений.

Чем выше полученное значение – тем лучше качество изображения. Но, как и в случае с MSE, PSNR не всегда коррелирует с человеческим восприятием.

3. Структурное сходство (SSIM) [6]:

missing image file ,

где μ, σ – средние и стандартные отклонения по яркости, σxy – ковариация, C1 и C2 – стабилизирующие константы.

Также использовались методы визуальной оценки и сохранения выходных изображений на различных этапах обучения для анализа качества генерации. Все эксперименты проводились с использованием ускорения на GPU и смешанной точности (AMP), что позволило значительно сократить время обучения при сохранении высокой точности вычислений.

Результаты исследования и их обсуждение

Для оценки эффективности предлагаемого метода динамического ухудшения данных «на лету» проведены серии экспериментов, в которых сравнивались версии генеративно-состязательной сети, обученные с использованием деградации и без нее [12, 13]. В качестве контрольных данных использовались изображения из валидационного набора DIV2K, подвергавшиеся разнообразным искажениям, включая гауссовский шум, импульсный шум, размытие и JPEG-артефакты [14]. Результаты выполненных авторами экспериментов приведены в таблице и проиллюстрированы графиками (рис. 1–3).

Сравнение метрик

Эпоха	MSE		PSNR		SSIM
Эпоха	Без динамич. дегр.	С динамич. дегр.	Без динамич. дегр.	С динамич. дегр.	Без динамич. дегр.	С динамич. дегр.
50	0,0299	0,0297	23,9398	23,8477	0,4426	0,4479
75	0,0282	0,0281	24,0224	23,8870	0,4891	0,4922
100	0,0265	0,0294	24,9363	23,5025	0,5208	0,4606
125	0,0238	0,0217	25,0879	25,3604	0,5570	0,6055
150	0,0210	0,0176	25,7007	26,4130	0,6018	0,6922
175	0,0194	0,0139	26,1879	27,3653	0,6244	0,7364
200	0,0175	0,0103	25,8525	27,7281	0,6739	0,7887
225	0,0159	0,0070	26,5246	28,0187	0,7171	0,8472
250	0,0145	0,0066	27,1937	28,7353	0,7465	0,8619
275	0,0128	0,0057	27,4272	28,7841	0,7875	0,9183
300	0,0114	0,0053	27,5895	29,6268	0,8242	0,9659

Источник: составлено авторами.

missing image file

Рис. 1. График сравнения метрики MSE для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 2. График сравнения метрики PSNR для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 3. График сравнения метрики SSIM для моделей с динамической деградацией и без нее Источник: составлено авторами

missing image file

Рис. 4. Исходное масштабированное изображение Источник: взято из датасета DIV2K

Результаты экспериментов показали, что внедрение on-the-fly деградации повышает устойчивость модели к нестабильным входным данным. В частности, среднее значение метрики SSIM увеличилось на 15 % по сравнению с базовой моделью, обученной на «чистых» данных. Также наблюдалось снижение значения MSE и рост PSNR, что свидетельствует о более точной реконструкции исходных изображений. Было выявлено, что модели, обученные с использованием деградации, демонстрируют лучшую генерализацию при работе с ранее не встречавшимися типами искажений, что проявляется в сохранении структуры и текстур изображения даже при значительных отклонениях от тренировочного распределения. На субъективном уровне результаты генерации таких моделей характеризуются более четкими границами объектов, снижением артефактов и меньшим визуальным шумом.

missing image file

Рис. 5. Изображения, восстановленные нейросетью, слева модель без деградации данных, справа – с деградацией Источник: получено авторами в результате проведенного исследования

Отметим, что эффект устойчивости не был достигнут ценой существенного роста вычислительной сложности. Благодаря постепенному включению ухудшений в ходе обучения (начиная с 100-й эпохи) модель имела возможность сначала выучить базовые закономерности, а затем адаптироваться к сложным условиям, что позволило избежать проблем переобучения и сохранить стабильность процесса оптимизации. С результатом работы моделей с деградацией данных и без ее использования можно ознакомиться на рис. 4–5.

Таким образом, предложенный подход на основе динамической деградации данных в процессе обучения подтверждает возможность использования на практике, как инструмент повышения устойчивости GAN к реальным искажениям. Метод может быть полезен в задачах, связанных с реставрацией, суперразрешением и генерацией изображений в нестабильных или ограниченных по качеству условиях [15]. Видится перспективным дальнейшее исследование по расширению использования рассмотренного подхода, включая его адаптацию к видео-данным и применению в мультимодальных генеративных архитектурах [16].

Заключение

Результаты проведенного исследования подтвердили эффективность метода динамического ухудшения данных «на лету» для повышения устойчивости генеративно-состязательных сетей. Введение искажений в процессе обучения позволило добиться значимых улучшений по ключевым метрикам качества (MSE, PSNR, SSIM), что свидетельствует о более точной реконструкции изображений и снижении визуальных артефактов. При этом подход не потребовал существенного увеличения вычислительных ресурсов, благодаря поэтапному включению деградаций, начиная со 100-й эпохи обучения.

Особый интерес представляет выявленная способность моделей, обученных с деградацией, успешно обрабатывать ранее не встречавшиеся искажения, что указывает на рост обобщающей способности и адаптивности архитектуры. Это открывает перспективы применения метода в условиях ограниченного или нестабильного качества данных, таких как восстановление поврежденных изображений, апскейлинг в режиме реального времени и медицинская визуализация.

Таким образом, динамическое ухудшение данных может быть рекомендовано как надежный и универсальный механизм повышения устойчивости GAN в прикладных задачах. В дальнейшем представляется целесообразным расширение подхода на видеоформаты, а также исследование его эффективности в рамках мультимодальных генеративных моделей.

Конфликт интересов

Авторы сообщают об отсутствии коммерческой заинтересованности в каком-либо продукте или концепции, обсуждаемых в этой статье

Библиографическая ссылка

Ананченко И.В., Добровольский Д.К., Уруймагов Я.Г. ДИНАМИЧЕСКОЕ УХУДШЕНИЕ ДАННЫХ КАК ИНСТРУМЕНТ ПОВЫШЕНИЯ УСТОЙЧИВОСТИ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ // Международный журнал прикладных и фундаментальных исследований. 2025. № 8. С. 46-51;
URL: https://applied-research.ru/ru/article/view?id=13745 (дата обращения: 03.11.2025).
DOI: https://doi.org/10.17513/mjpfi.13745

Научный журнал
Международный журнал прикладных и фундаментальных исследований

ISSN 1996-3955

ИФ РИНЦ = 0,556

Конфликт интересов

Библиографическая ссылка

Международный журнал прикладных и фундаментальных исследований
Научный журнал | ISSN 1996-3955 | ПИ №77-60735