Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,593

VISUALIZATION VISUAL IMAGES

Lozhkin L.D. 1 Voronnoy A.A. 1 Ankina K.P. 1 Balykina T.G. 1 Kuzmenko A.A. 1
1 Povolzhskiy State University of Telecommunications and Informatics
2788 KB
The purpose of this article is to describe and analyze the currently existing method of extraction and visualization of human visual images. The method under consideration is that by means of magnetic resonance imaging (MRI) biological signals of brain activity are removed on certain stimuli, such as text, pictures, colors, etc., which subsequently arrive at the decoder, where their processing takes place. With the help of this treatment, there is a reconstruction of the stimuli shown to a person, i.e., there is a reconstruction of visual images. The paper deals with the main results of the considered method, which are reconstruction of the original stimuli using visual images, comparison of the reconstructed images with the original stimuli, as well as the derived dependence of recognition of visual images depending on the number of DNN layers. Recognition occurred, as well as mathematically, by means of pixel correlation, and by means of perception of the restored images and their subsequent comparison by the person, i.e. the reconstructed images were shown to the person. The conclusion of this article will set out the prospects for the development of visualization of human visual images and the field of science as a whole.
visual images
imaging techniques
MRI
DNN
visualization imaging

Визуализация зрительных образов человека является довольно сложной задачей, так как необходимо разработать методы по выявлению активности нейронов головного мозга в тот момент, когда человек вспоминает зрительные образы. В настоящее время для выделения активности головного мозга используется магнитно-резонансная томография (МРТ), это обусловлено тем, что МРТ позволяет получить примерную картину активности головного мозга, что позволяет уже на сегодняшний день иметь представление о некоторых процессах, протекающих в мозге человека. Благодаря этому учеными начались разработки функциональных моделей активности головного мозга.

В настоящее время проводится большое количество исследований, которые направлены на изучение активности головного мозга. Одним из таких исследований являются опыты по получению возможности визуализации зрительных образов человека по активности головного мозга. Целью данной статьи является разбор одного из существующих методов по визуализации зрительных образов и результаты работы данного метода.

Материалы и методы исследования

В настоящей статье используются материалы, предоставленные в открытом доступе.

Благодаря использованию функциональных моделей МРТ ученым удалось обучить машины визуализировать содержание восприятия, но образы, которые были получены, ограничены реконструкцией с низкоуровневыми базами изображений [1, 2] или на соответствии образам [3, 4].

При дальнейшем изучении вопроса по визуализации зрительных образов человека было обнаружено, что имеется возможность для декодирования визуальной кортикальной активности в иерархические особенности глубокой нейронной сети (DNN) для одного и того же входного изображения. Так японскими учёнными был разработан метод реконструкции изображения, в котором значения пикселей изображения были оптимизированы так, чтобы сделать его DNN-функции похожими на те, которые декодируются из активности человеческого мозга на нескольких слоях [5]. В своём методе они объединили декодирование функции DNN из сигналов фМРТ (англ. fMRI) и методов генерации изображений, недавно разработанных в области машинного обучения [6] (рис. 1).

logk1.tif

Рис. 1. Процесс глубокой реконструкции визуальных образов

Алгоритм восстановления начинается со случайного изображения и итеративно оптимизирует значения пикселей, так что DNN-функции входного изображения становятся похожими на те, которые декодируются из активности мозга на нескольких слоях DNN. Полученное оптимизированное изображение берется как реконструкция активности мозга. Для того чтобы реконструированные изображения были похожи на естественные изображения, была введена глубинная генераторная сеть (DGN) [7].

Эксперименты японских учёных состояли из четырех различных типов сеансов представления изображений: сеансы обучения естественному изображению, тестовые сеансы естественного изображения, сеансы геометрической формы и сеансы алфавитного письма и один сеанс психического изображения. В ходе проведённых опытов им удалось обучить декодеры, которые предсказывают особенности DNN просматриваемых изображений из паттернов активности fMRI, расшифровывать визуальные образы, поступающие из головного мозга (рис. 2).

logk2a.tif

а)

logk2b.tif

б)

Рис. 2. а) зависимость процента узнаваемости реконструированного изображения от количества слоёв DNN, б) реконструкция изображений с DGN и без DGN

Для исследования эффекта естественного изображения были сравнены реконструкции зрительных образов с и без DGN (рис. 2, б). При сравнении было обнаружено то, что реконструкции, полученные без DGN, не показывали семантически значимых черт, хотя при этом в реконструкциях успешно были получены грубые силуэты. Для оценки точности реконструкции были использованы два способа: пространственная корреляция пикселей и человеческое суждение.

Результаты исследования и их обсуждение

Согласно полученным результатам было обнаружено, что с использованием DGN результаты реконструкции были более узнаваемы по сравнению с без использования DGN (с использованием DGN 99,1 %, без использования DGN 96, 5 %), при этом, что корреляция дала обратные результаты (с использованием DGN 76,1 %, без использования DGN 79,7 %). В связи с тем, что конечное изображение будет интерпретировать человек, то результаты предполагают полезность DGN, которая улучшает перцептивное сходство реконструированных изображений с целевыми изображениями путем рендеринга семантически значимых деталей для реконструкций.

Для оценки зависимости качества реконструкции от количества слоёв DNN был проведён опыт, в котором наблюдателю (человек) были представлены несколько сгенерированных реконструированных изображений и оригинальное изображение. Реконструированные изображения отличались лишь только числом слоев DNN. Субъективная оценка показала, что при увеличении числа слоёв DNN увеличивалась и узнаваемость реконструированного изображения (рис. 2, а).

Для подтверждения того, что метод не ограничен конкретной областью изображений, которые используются для обучения модели, были использованы и искусственные формы изображений. Результаты реконструкции искусственных цветных форм изображений (рис. 3) были успешно реконструированы с умеренной точностью (рис. 4, 69,4 % по пиксельной пространственной корреляции, 92,3 % по человеческому суждению), что показало то, что модель действительно «реконструирует» или «генерирует» изображения из активности мозга, а не просто соответствует образцам.

logk3.tif

Рис. 3. Реконструированные искусственные цветные формы изображения

logk4.tif

Рис. 4. Точность реконструкции искусственных изображений

Для оценки реконструкции форм и цвета стимулирующих изображений было отдельно оценено качество реконструкции каждой формы и цвета, сравнивая восстановленные изображения тех же цветов и форм. В ходе оценки было обнаружено, что формы изображений лучше всего реконструируются в ранних визуальных областях, а цвета в свою очередь в средних (рис. 5). Данное обстоятельство говорит о том, что имеется различная тенденция качества реконструкции форм и цветов в зависимости от визуальной области.

logk5.tif

Рис. 5. Зависимость реконструкции формы и цвета в зависимости от визуальной области

logk6.tif

Рис. 6. Реконструкция изображений субъективного содержания

На последнем этапе была оценена возможность визуальной реконструкции субъективного содержания. В данном опыте участников экспериментов попросили представить одно из изображений, представляемых ранее. В результате чего были получены следующие результаты, представленные на рис. 6.

Из результатов опыта видно, что простые искусственные формы были успешно реконструированы, в то время как более сложные естественные были не очень хорошо реконструированы, возможно, из-за сложности представления сложных природных образов.

Заключение

Видно, что в настоящее время визуализация зрительных образов человека не достигла ещё той степени, когда изображения, которые человек может представить в своём воображении, можно полностью извлечь из мозговой активности. При этом нельзя и не замечать успехов, достигнутых в данном направлении. Если удастся достигнуть той степени технологии, когда появится возможность извлекать зрительные образы из памяти со стопроцентным успехом, то данная технология найдёт широкое применение в области криминалистики, кинопроизводства и ещё многих других областях, где есть необходимость воспроизвести либо воображаемые изображения, как в криминалистике, составить фоторобот подозреваемых.