ВИЗУАЛИЗАЦИЯ ЗРИТЕЛЬНЫХ ОБРАЗОВ

Ложкин Л.Д. 1 Воронной А.А. 1 Анкина К.П. 1 Балыкина Т.Г. 1 Кузьменко А.А. 1

1 ФГБОУ ВО «Поволжский государственный университет телекоммуникаций и информатики»

Целью данной статьи является описание и разбор существующего на данный момент метода извлечения и визуализации зрительных образов человека. Рассматриваемый метод заключается в том, что при помощи магнитнорезонансной томографии (МРТ) снимаются биологические сигналы активности головного мозга на определённые раздражители, такие как текст, картины, цвета и т.д., которые в дальнейшем поступают на декодер, где и происходит их обработка. При помощи данной обработки происходит реконструкция показанных человеку раздражителей, т.е. происходит реконструкция зрительных образов. В работе рассмотрены основные полученные результаты рассматриваемого метода, которыми являются реконструкции исходных раздражителей при помощи зрительных образов, сравнение полученных реконструированных изображений с исходными раздражителями, а также выведенные зависимости распознавания зрительных образов в зависимости от числа слоёв DNN. Распознавание происходило, как и математически, при помощи корреляции пикселей, так и посредством восприятия восстановленных изображений и их последующем сравнении человеком, т.е. реконструированные изображения показывали человеку. В выводе данной статьи будут изложены перспективы развития визуализации зрительных образов человека и данной области науки в целом.

Статья в формате PDF

2788 KB

зрительные образы

методы визуализации

МРТ

DNN

визуализация образов

1. Miyawaki Y., Yamashita О., Uchida H., Sato M. Visual image reconstruction from human brain activity using a combination of multiscale local image decoders. Neuron. January, 2009. P. 915–929.

2. Haiguang W., Junxing S., Yizhen Z., Kun-Han L., Jiayue C., Zhongming L. Neural encoding and decoding with deep learning for dynamic natural vision. Cereb. Cortex. 2017. P. 4136–4160. DOI: 10.1093/cercor/bhx268.

3. Naselaris T., Prenger R.J., Kay K.N., Oliver M., Callant J.L. Bayesian Reconstruction of Natural Images from Human Brain Activity. Neuron. 2009. P. 902–915.

4. Nishimoto S., An T. Vu, Naselaris T., Benjamini Y., Bin Yu, Gallant J.L. Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies. Current Biology. October. 2011. P. 1641–1646.

5. Guohua S., Tomoyasu S., Kei M., Yukiyasu K. Deep image reconstruction from human brain activity. December, 2017. P. 1–19. DOI: 10.1371/journal.pcbi.1006633.

6. Mahendran A., Vedaldi A. Understanding deep image representations by inverting them. Computer Vision and Pattern Recognition. November, 2014. P. 1–9.

7. Nguyen A., Dosovitskiy A., Yosinski J., Brox T., Clune J. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. Neural and Evolutionary Computing. November, 2016. P. 1–29.

Визуализация зрительных образов человека является довольно сложной задачей, так как необходимо разработать методы по выявлению активности нейронов головного мозга в тот момент, когда человек вспоминает зрительные образы. В настоящее время для выделения активности головного мозга используется магнитно-резонансная томография (МРТ), это обусловлено тем, что МРТ позволяет получить примерную картину активности головного мозга, что позволяет уже на сегодняшний день иметь представление о некоторых процессах, протекающих в мозге человека. Благодаря этому учеными начались разработки функциональных моделей активности головного мозга.

В настоящее время проводится большое количество исследований, которые направлены на изучение активности головного мозга. Одним из таких исследований являются опыты по получению возможности визуализации зрительных образов человека по активности головного мозга. Целью данной статьи является разбор одного из существующих методов по визуализации зрительных образов и результаты работы данного метода.

Материалы и методы исследования

В настоящей статье используются материалы, предоставленные в открытом доступе.

Благодаря использованию функциональных моделей МРТ ученым удалось обучить машины визуализировать содержание восприятия, но образы, которые были получены, ограничены реконструкцией с низкоуровневыми базами изображений [1, 2] или на соответствии образам [3, 4].

При дальнейшем изучении вопроса по визуализации зрительных образов человека было обнаружено, что имеется возможность для декодирования визуальной кортикальной активности в иерархические особенности глубокой нейронной сети (DNN) для одного и того же входного изображения. Так японскими учёнными был разработан метод реконструкции изображения, в котором значения пикселей изображения были оптимизированы так, чтобы сделать его DNN-функции похожими на те, которые декодируются из активности человеческого мозга на нескольких слоях [5]. В своём методе они объединили декодирование функции DNN из сигналов фМРТ (англ. fMRI) и методов генерации изображений, недавно разработанных в области машинного обучения [6] (рис. 1).

logk1.tif

Рис. 1. Процесс глубокой реконструкции визуальных образов

Алгоритм восстановления начинается со случайного изображения и итеративно оптимизирует значения пикселей, так что DNN-функции входного изображения становятся похожими на те, которые декодируются из активности мозга на нескольких слоях DNN. Полученное оптимизированное изображение берется как реконструкция активности мозга. Для того чтобы реконструированные изображения были похожи на естественные изображения, была введена глубинная генераторная сеть (DGN) [7].

Эксперименты японских учёных состояли из четырех различных типов сеансов представления изображений: сеансы обучения естественному изображению, тестовые сеансы естественного изображения, сеансы геометрической формы и сеансы алфавитного письма и один сеанс психического изображения. В ходе проведённых опытов им удалось обучить декодеры, которые предсказывают особенности DNN просматриваемых изображений из паттернов активности fMRI, расшифровывать визуальные образы, поступающие из головного мозга (рис. 2).

logk2a.tif

а)

logk2b.tif

б)

Рис. 2. а) зависимость процента узнаваемости реконструированного изображения от количества слоёв DNN, б) реконструкция изображений с DGN и без DGN

Для исследования эффекта естественного изображения были сравнены реконструкции зрительных образов с и без DGN (рис. 2, б). При сравнении было обнаружено то, что реконструкции, полученные без DGN, не показывали семантически значимых черт, хотя при этом в реконструкциях успешно были получены грубые силуэты. Для оценки точности реконструкции были использованы два способа: пространственная корреляция пикселей и человеческое суждение.

Результаты исследования и их обсуждение

Согласно полученным результатам было обнаружено, что с использованием DGN результаты реконструкции были более узнаваемы по сравнению с без использования DGN (с использованием DGN 99,1 %, без использования DGN 96, 5 %), при этом, что корреляция дала обратные результаты (с использованием DGN 76,1 %, без использования DGN 79,7 %). В связи с тем, что конечное изображение будет интерпретировать человек, то результаты предполагают полезность DGN, которая улучшает перцептивное сходство реконструированных изображений с целевыми изображениями путем рендеринга семантически значимых деталей для реконструкций.

Для оценки зависимости качества реконструкции от количества слоёв DNN был проведён опыт, в котором наблюдателю (человек) были представлены несколько сгенерированных реконструированных изображений и оригинальное изображение. Реконструированные изображения отличались лишь только числом слоев DNN. Субъективная оценка показала, что при увеличении числа слоёв DNN увеличивалась и узнаваемость реконструированного изображения (рис. 2, а).

Для подтверждения того, что метод не ограничен конкретной областью изображений, которые используются для обучения модели, были использованы и искусственные формы изображений. Результаты реконструкции искусственных цветных форм изображений (рис. 3) были успешно реконструированы с умеренной точностью (рис. 4, 69,4 % по пиксельной пространственной корреляции, 92,3 % по человеческому суждению), что показало то, что модель действительно «реконструирует» или «генерирует» изображения из активности мозга, а не просто соответствует образцам.

logk3.tif

Рис. 3. Реконструированные искусственные цветные формы изображения

logk4.tif

Рис. 4. Точность реконструкции искусственных изображений

Для оценки реконструкции форм и цвета стимулирующих изображений было отдельно оценено качество реконструкции каждой формы и цвета, сравнивая восстановленные изображения тех же цветов и форм. В ходе оценки было обнаружено, что формы изображений лучше всего реконструируются в ранних визуальных областях, а цвета в свою очередь в средних (рис. 5). Данное обстоятельство говорит о том, что имеется различная тенденция качества реконструкции форм и цветов в зависимости от визуальной области.

logk5.tif

Рис. 5. Зависимость реконструкции формы и цвета в зависимости от визуальной области

logk6.tif

Рис. 6. Реконструкция изображений субъективного содержания

На последнем этапе была оценена возможность визуальной реконструкции субъективного содержания. В данном опыте участников экспериментов попросили представить одно из изображений, представляемых ранее. В результате чего были получены следующие результаты, представленные на рис. 6.

Из результатов опыта видно, что простые искусственные формы были успешно реконструированы, в то время как более сложные естественные были не очень хорошо реконструированы, возможно, из-за сложности представления сложных природных образов.

Заключение

Видно, что в настоящее время визуализация зрительных образов человека не достигла ещё той степени, когда изображения, которые человек может представить в своём воображении, можно полностью извлечь из мозговой активности. При этом нельзя и не замечать успехов, достигнутых в данном направлении. Если удастся достигнуть той степени технологии, когда появится возможность извлекать зрительные образы из памяти со стопроцентным успехом, то данная технология найдёт широкое применение в области криминалистики, кинопроизводства и ещё многих других областях, где есть необходимость воспроизвести либо воображаемые изображения, как в криминалистике, составить фоторобот подозреваемых.

Библиографическая ссылка

Ложкин Л.Д., Воронной А.А., Анкина К.П., Балыкина Т.Г., Кузьменко А.А. ВИЗУАЛИЗАЦИЯ ЗРИТЕЛЬНЫХ ОБРАЗОВ // Международный журнал прикладных и фундаментальных исследований. 2019. № 1. С. 125-129;
URL: https://applied-research.ru/ru/article/view?id=12653 (дата обращения: 02.07.2025).

Научный журнал
Международный журнал прикладных и фундаментальных исследований

ISSN 1996-3955

ИФ РИНЦ = 0,556

Библиографическая ссылка

Международный журнал прикладных и фундаментальных исследований
Научный журнал | ISSN 1996-3955 | ПИ №77-60735