Визуализация зрительных образов человека является довольно сложной задачей, так как необходимо разработать методы по выявлению активности нейронов головного мозга в тот момент, когда человек вспоминает зрительные образы. В настоящее время для выделения активности головного мозга используется магнитно-резонансная томография (МРТ), это обусловлено тем, что МРТ позволяет получить примерную картину активности головного мозга, что позволяет уже на сегодняшний день иметь представление о некоторых процессах, протекающих в мозге человека. Благодаря этому учеными начались разработки функциональных моделей активности головного мозга.
В настоящее время проводится большое количество исследований, которые направлены на изучение активности головного мозга. Одним из таких исследований являются опыты по получению возможности визуализации зрительных образов человека по активности головного мозга. Целью данной статьи является разбор одного из существующих методов по визуализации зрительных образов и результаты работы данного метода.
Материалы и методы исследования
В настоящей статье используются материалы, предоставленные в открытом доступе.
Благодаря использованию функциональных моделей МРТ ученым удалось обучить машины визуализировать содержание восприятия, но образы, которые были получены, ограничены реконструкцией с низкоуровневыми базами изображений [1, 2] или на соответствии образам [3, 4].
При дальнейшем изучении вопроса по визуализации зрительных образов человека было обнаружено, что имеется возможность для декодирования визуальной кортикальной активности в иерархические особенности глубокой нейронной сети (DNN) для одного и того же входного изображения. Так японскими учёнными был разработан метод реконструкции изображения, в котором значения пикселей изображения были оптимизированы так, чтобы сделать его DNN-функции похожими на те, которые декодируются из активности человеческого мозга на нескольких слоях [5]. В своём методе они объединили декодирование функции DNN из сигналов фМРТ (англ. fMRI) и методов генерации изображений, недавно разработанных в области машинного обучения [6] (рис. 1).
Рис. 1. Процесс глубокой реконструкции визуальных образов
Алгоритм восстановления начинается со случайного изображения и итеративно оптимизирует значения пикселей, так что DNN-функции входного изображения становятся похожими на те, которые декодируются из активности мозга на нескольких слоях DNN. Полученное оптимизированное изображение берется как реконструкция активности мозга. Для того чтобы реконструированные изображения были похожи на естественные изображения, была введена глубинная генераторная сеть (DGN) [7].
Эксперименты японских учёных состояли из четырех различных типов сеансов представления изображений: сеансы обучения естественному изображению, тестовые сеансы естественного изображения, сеансы геометрической формы и сеансы алфавитного письма и один сеанс психического изображения. В ходе проведённых опытов им удалось обучить декодеры, которые предсказывают особенности DNN просматриваемых изображений из паттернов активности fMRI, расшифровывать визуальные образы, поступающие из головного мозга (рис. 2).
а)
б)
Рис. 2. а) зависимость процента узнаваемости реконструированного изображения от количества слоёв DNN, б) реконструкция изображений с DGN и без DGN
Для исследования эффекта естественного изображения были сравнены реконструкции зрительных образов с и без DGN (рис. 2, б). При сравнении было обнаружено то, что реконструкции, полученные без DGN, не показывали семантически значимых черт, хотя при этом в реконструкциях успешно были получены грубые силуэты. Для оценки точности реконструкции были использованы два способа: пространственная корреляция пикселей и человеческое суждение.
Результаты исследования и их обсуждение
Согласно полученным результатам было обнаружено, что с использованием DGN результаты реконструкции были более узнаваемы по сравнению с без использования DGN (с использованием DGN 99,1 %, без использования DGN 96, 5 %), при этом, что корреляция дала обратные результаты (с использованием DGN 76,1 %, без использования DGN 79,7 %). В связи с тем, что конечное изображение будет интерпретировать человек, то результаты предполагают полезность DGN, которая улучшает перцептивное сходство реконструированных изображений с целевыми изображениями путем рендеринга семантически значимых деталей для реконструкций.
Для оценки зависимости качества реконструкции от количества слоёв DNN был проведён опыт, в котором наблюдателю (человек) были представлены несколько сгенерированных реконструированных изображений и оригинальное изображение. Реконструированные изображения отличались лишь только числом слоев DNN. Субъективная оценка показала, что при увеличении числа слоёв DNN увеличивалась и узнаваемость реконструированного изображения (рис. 2, а).
Для подтверждения того, что метод не ограничен конкретной областью изображений, которые используются для обучения модели, были использованы и искусственные формы изображений. Результаты реконструкции искусственных цветных форм изображений (рис. 3) были успешно реконструированы с умеренной точностью (рис. 4, 69,4 % по пиксельной пространственной корреляции, 92,3 % по человеческому суждению), что показало то, что модель действительно «реконструирует» или «генерирует» изображения из активности мозга, а не просто соответствует образцам.
Рис. 3. Реконструированные искусственные цветные формы изображения
Рис. 4. Точность реконструкции искусственных изображений
Для оценки реконструкции форм и цвета стимулирующих изображений было отдельно оценено качество реконструкции каждой формы и цвета, сравнивая восстановленные изображения тех же цветов и форм. В ходе оценки было обнаружено, что формы изображений лучше всего реконструируются в ранних визуальных областях, а цвета в свою очередь в средних (рис. 5). Данное обстоятельство говорит о том, что имеется различная тенденция качества реконструкции форм и цветов в зависимости от визуальной области.
Рис. 5. Зависимость реконструкции формы и цвета в зависимости от визуальной области
Рис. 6. Реконструкция изображений субъективного содержания
На последнем этапе была оценена возможность визуальной реконструкции субъективного содержания. В данном опыте участников экспериментов попросили представить одно из изображений, представляемых ранее. В результате чего были получены следующие результаты, представленные на рис. 6.
Из результатов опыта видно, что простые искусственные формы были успешно реконструированы, в то время как более сложные естественные были не очень хорошо реконструированы, возможно, из-за сложности представления сложных природных образов.
Заключение
Видно, что в настоящее время визуализация зрительных образов человека не достигла ещё той степени, когда изображения, которые человек может представить в своём воображении, можно полностью извлечь из мозговой активности. При этом нельзя и не замечать успехов, достигнутых в данном направлении. Если удастся достигнуть той степени технологии, когда появится возможность извлекать зрительные образы из памяти со стопроцентным успехом, то данная технология найдёт широкое применение в области криминалистики, кинопроизводства и ещё многих других областях, где есть необходимость воспроизвести либо воображаемые изображения, как в криминалистике, составить фоторобот подозреваемых.