Научный журнал
Международный журнал прикладных и фундаментальных исследований
ISSN 1996-3955
ИФ РИНЦ = 0,593

СПЕЦИАЛИЗИРОВАННЫЙ «АЙ-ТРЕКИНГ» БЕЗ АЙ-ТРЕКЕРА: ЭКСПЕРИМЕНТАЛЬНЫЙ ПОДХОД К ИЗУЧЕНИЮ КОГНИТИВНЫХ ПРОЦЕССОВ

Бондарь Г.Г. 1 Гусач Ю.И. 2 Ивлев С.А. 1
1 ФГАОУ ВО «Южный Федеральный университет»
2 КБ ООО «КорВита»
Разработанный экспериментальный подход сочетает глобальное зашумление изображения с возможностью кратковременного восстановления чёткости любых локусов, произвольно выбираемых наблюдателем. Особенности метода позволяют без применения специального оборудования (типа Ай-трекеров), отслеживать цепь фиксаций взгляда наблюдателя на четких локусах, выбираемых им с целью формирования суждения о рассматриваемом объекте. Метод комфортен для наблюдателя, поскольку не требует посторонних воздействий на глаза, предварительной калибровки и жесткой фиксации головы. Рассматриваются перспективы использования предлагаемого подхода для проведения фундаментальных и прикладных исследований, в частности, в клинических условиях для оценки состояния когнитивной сферы человека, а также при профессиональном отборе специалистов для деятельности, требующей оперативного анализа зрительной информации.
зрительное восприятие
зрительный поиск
метод регистрации
когнитивные процессы
распознавание и понимание изображений
1.Барабанщиков В.А., Жегалло А.В. Регистрация и анализ направленности взора человека. – М.: Изд‐во «ИП РАН». – 2013. – 323 с.
2.Величковский Б. М. Когнитивная наука. Основы психологии познания. Том I. – 2006. – 448 с.
3.Завалова И.Д., Пономаренко Б.А. Принцип активного оператора в инженерной психологии // Инженерная психология: теория, методология, практическое применение. – М.: Наука, 1977. – С. 119–133.
4.Ярбус А.Л. Роль движений глаз в процессе зрения. – М.: Наука, 1965. – 166 с.
5.Mack A., Rock I. Inattentional blindness. – Cambridge, MA: MIT press, 1998. – 228 p.
6.Our eyes do not always go where we want them to go: Capture of the eyes by new objects / Theeuwes J., Kramer A.F., Hahn S., Irwin D.E. // Psychological Science, 1998. – V. 9. – № 5. – Р. 379–385.
7.Rayner K. Eye movements in reading and information processing: 20 years of research // Psychological bulletin. – 1998. – V. 124. – № 3. – Р. 372–422.
8.van Zoest W., Donk M. Bottom-up and top-down control in visual search //PERCEPTION-LONDON. – 2004. – V. 33. – Р. 927–938.
9.Visual saliency does not account for eye movements during visual search in real-world scenes / Henderson J. M., Brockmole J. R., Castelhano M. S., et al. // Eye movements: A window on mind and brain. – 2007. – Р. 537–562.

Данная работа посвящена описанию разработанного экспериментального подхода, предназначенного для изучения когнитивных процессов, связанных с активным зрительным поиском значимой информации об окружающей действительности. Предлагаемый подход основан на использовании физиологических особенностей зрения человека для отслеживания цепи фиксаций взгляда наблюдателя на кратковременно обретающих четкость фрагментах зашумленного изображения.

Цель работы: обосновать возможность применения разработанного метода в когнитивных исследованиях, включающих регистрацию зрительного поиска, а также аргументировать возможность обойтись в таких экспериментах без посторонних воздействий на глазное яблоко, калибровки и жесткой фиксации головы обследуемого, используемых обычно при Ай-трекинге [1, 9].

Обоснование разработанного экспериментального подхода. Предлагаемый подход базируется на аналогии с часто встречающейся в естественных условиях ситуацией, когда на фоне глобально зашумленного изображения появляется четкий локус, меняющий свою позицию. Наблюдение за таким локусом может оказаться достаточным для того, чтобы составить суждение об изображении, если смена позиций локуса позволяет обнаружить комплекс значимых фрагментов изображения.

В эксперименте наблюдателю предоставляется возможность осуществлять кратковременное восстановление четкости любого локуса, выбранного им на зашумленном изображении. Преобразование происходит в позиции, указанной с помощью курсора, и запускается с помощью щелчка мыши.

Тестирование происходит в форме компьютерной игры. Наблюдателю предлагается, преобразовав последовательно минимальное количество локусов (окон), распознать изображение а, если оно незнакомо, составить общее представление о нем и описать его содержание. (Возможны и другие варианты заданий). Рассматриваемое участником эксперимента изображение – простой объект или сюжетная сцена – предъявляется на экране монитора в размытом до неузнаваемости виде.

Каждый локус, произвольно выбираемый наблюдателем для преобразования, занимает в поле зрения субъекта 1.3 градуса, что соответствует угловому размеру проекции фовеа на изображение. Линейный размер этой проекции предварительно рассчитывается с учетом расстояния между экраном и наблюдателем. Продолжительность четкого состояния каждого окна ограничена 450 мс. Нажатие на кнопку мыши, происходящее раньше этого срока возвращает окно в размытое состояние и открывает следующий четкий локус, центр которого определяется положением курсора. Допускается неоднократное обращение к ранее осмотренным окнам. Выбранные параметры близки характеристикам фиксаций взгляда при восприятии изображений в естественных условиях [2, 4, 7, 9].

Любое окно, появляющееся на зашумленном фоне как единственный четкий участок изображения, оказывается центром притяжения и фиксации взгляда вследствие глазодвигательного захвата, вызванного скачкообразным преобразованием локуса, обретающего четкость. Глазодвигательный захват, являющийся проявлением восходящего (bottom-up) управления взглядом, быстро и достоверно привлекает непроизвольное внимание наблюдателя [6, 8, 9]. Этот феномен приобретает особую надежность в условиях разработанного экспериментального подхода. В момент, когда наблюдатель запускает преобразование, его внимание уже сконцентрировано в области выбранного им локуса, поэтому изменение четкости локуса не может быть пропущено или замечено с опозданием. Функция глазодвигательного захвата в таких условиях регулярна и заключается в автоматической коррекции фиксации взгляда на появившемся четком фрагменте.

Параллельно с этим игровой азарт, вызываемый сценарием эксперимента, активирует нисходящее (top-down) управление взглядом [8, 9], привлекая произвольное внимание наблюдателя к каждому из открываемых окон, как к вероятному источнику информации, необходимой для формирования суждения об изображении. С появлением четкого фрагмента внимание обостряется настолько, что, по свидетельству наблюдателей, из поля зрения выпадают окружающие участки размытого изображения. Видимой остается лишь круглая зона окна, содержащего четкий фрагмент, что указывает на высокую точность позиционирования взгляда на открывающихся окнах.

Таким образом, выбранный способ предъявления окон приводит к возникновению особой синергии восходящего (непроизвольного) и нисходящего (произвольного) управляющих воздействий, которая обеспечивает надежность и точность [1] притяжения и фиксации взгляда, а также фокусированного внимания к открывающимся четким фрагментам изображения.

В итоге, метод приобретает черты специализированного Ай-трекера, обеспечивающего возможность отслеживать последовательность фиксаций взгляда наблюдателя на локусах, кратковременно обретающих четкость на фоне зашумленного изображения.

При таком отслеживании не возникает погрешностей, связанных с дрейфом (или сбоем) системы координат взора, имеющих место при использовании традиционных методов [1, 9], и вообще не требуется ни периодически повторяющейся калибровки (утомляющей обследуемого еще до начала экспериментов), ни жесткой фиксации головы.

Во время эксперимента наблюдатель располагается в удобном, регулируемом по высоте кресле, с подбородником или подголовником, что позволяет ему сохранять, без утомления, фиксированное расстояние до экрана, при котором размер проекции фовеа на изображение соответствует размеру преобразуемых локусов. Наблюдатель имеет возможность расслабиться в паузах между предъявлением изображений, не опасаясь сбить калибровку. Очки, контактные линзы, накрашенные ресницы, создающие помехи в работе Ай-трекеров, использующих инфракрасную подсветку глаза (являющуюся в определенной мере фактором риска [1]), не являются препятствием для применения представляемого метода. Все это позволяет увеличить продолжительность экспериментов и расширить возможный контингент обследуемых.

В ходе эксперимента осуществляется программная регистрация расположения окон, открываемых наблюдателем на изображении, и их временной последовательности. Звукозапись высказываний и комментариев участников в процессе зрительного поиска (а также их словесных отчетов после выполнения задания) позволяет отслеживать этапы зрительных ассоциаций, гипотез и умозаключений.

Для оценки валидности метода данные, полученные с его помощью, сравнивались с классическими результатами, представленными в известной монографии А.Л. Ярбуса [4], полученными автором с помощью чрезвычайно точной [1] контактной методики. Для удобства сопоставления центры окон, открываемых наблюдателями на размытой репродукции картины И.Е. Репина «Не ждали», были соединены прямыми линиями в соответствии с последовательностью их осмотра. Полученные при этом паттерны были аналогичны глазодвигательным паттернам, представленным А.Л. Ярбусом [4, с. 127]. Примеры сопоставления показаны на рис. 1.

bon1.tif

Рис. 1. Паттерны осмотра репродукции картины И.Е. Репина «Не ждали»: верхний ряд – тремя наблюдателями в экспериментах А.Л. Ярбуса; нижний ряд – тремя нашими наблюдателями, сумевшими понять и описать сюжет скрытого зашумлением изображения. Угловые размеры изображения в двух видах экспериментов соответствовали друг другу

Сходство паттернов в двух видах экспериментов проявлялось, прежде всего, в расположении основных скоплений фиксаций взгляда – индикаторов областей повышенного интереса наблюдателей (именуемых также High Interest Areas). Это сходство обнаруживалось, несмотря на различие условий проведения экспериментов и количества фиксаций в сопоставляемых паттернах (их было, как минимум, вдвое больше в трехминутных осмотрах репродукции, представленных А.Л. Ярбусом).

Дефицит доступной информации, создаваемый зашумлением в наших экспериментах, вынуждает участников включать в свои маршруты все участки, позволяющие прояснить суть рассматриваемого изображения, а условие минимизации количества открываемых окон ограничивает накопление (сокращает долю) случайных и малоинформативных элементов в маршрутах осмотра сцены. Все это способствует выделению из фона областей повышенного интереса.

В обычных условиях при осмотре четкого изображения не исключено, что, по крайней мере, некоторые из значимых фрагментов могут быть восприняты без фиксации на них взгляда [2, 3, 5], например, посредством парафовеальных областей сетчатки, обладающих достаточно высокой разрешающей способностью. Последнее относится, прежде всего, к симультанному восприятию хорошо знакомых объектов, для реализации которого в обычных условиях достаточно одной – двух фиксаций [1]. Разработанный подход позволяет обнаруживать скрытые в условиях симультанного восприятия сочетания элементов, определяющие возможность распознавания объекта. На рис. 2 представлены примеры маршрутов при распознавании хорошо знакомого предмета.

При виде размытого изображения у наблюдателей появлялись разнообразные гипотезы (планета, луна, новогодний шар), которые в ходе осмотра менялись (медаль с эмблемой или гербом, медальон, металлическая тарелка, пуговица с узором и т.д.).

Первые 4 окна маршрута, представленного в верхнем ряду рис. 3 (см. A.I и B.I), позволили наблюдателю, идентифицировать единицу на блестящем металлическом диске и предположить, что зашумленный объект – монета. Следующие шаги открыли характерную виньетку справа от единицы, что определило ответ: «Монета достоинством в 1 рубль». Это распространенный вариант решения данной задачи, включающий переход от гипотезы о категории принадлежности объекта к его конкретной идентификации.

Первое окно второго маршрута (см. A.II и B.II), содержало малоинформативный фрагмент, а окна 2 и 3 открыли не самую узнаваемую часть правой виньетки, (наблюдатель отметил, что объект кажется ему похожим на жестяную банку). В окне 4 наблюдатель обнаружил верхнюю часть единицы, в окне 5 – две буквы подписи, а в окне 6 – характерный фрагмент ободка монеты с прилегающим к нему элементом нижней виньетки. Эти признаки, в совокупности с ограниченной, но непротиворечивой информацией, обнаруженной наблюдателем в предыдущих окнах, позволили ему распознать объект.

Следует отметить, что смена гипотезы способна кардинально изменить интерпретацию уже увиденного, а также дальнейший ход осмотра, о чем свидетельствует анализ представленного на рис. 3 маршрута.

Первые три окна маршрута, представленного на рис. 3, позволили наблюдателю высказать предположение, что он рассматривает зашумленное изображение календаря. Следующая группа шагов (4 – 6) не обнаружила ничего похожего на календарь и вызвала у наблюдателя сомнение в первоначальной гипотезе (открывшиеся фрагменты циферблата вызвали актуализацию нового образа) и после шагов (7 – 8) в центр предполагаемого объекта наблюдатель рассмотрел стрелки часов и ответил: «Настенные часы».

Регистрация маршрутов осмотра в сочетании с синхронными звукозаписями высказываний наблюдателей позволяет получить ценный материал о возможных способах формирования суждения о рассматриваемом объекте, о наиболее значимых и наиболее востребованных при выполнении той или иной задачи сочетаниях элементов изображения. Все это может приблизить понимание логики зрительного мышления и разработку гибких алгоритмов решения зрительных когнитивных задач.

bon2.tif

Рис. 2. Примеры решения задачи распознавания знакомого объекта двумя наблюдателями (верхний и нижний ряды). A.I, A.II – маршруты осмотров (окружностями обозначены локусы, четкость которых восстанавливалась, крестиками – их центры, цифрами – номера в последовательности осмотра). B.I, B.II – участки изображения, обретавшие четкость

bon3.tif

Рис. 3. Пример изменения направленности маршрута в связи со сменой гипотезы в процессе распознавания объекта (пояснения в тексте). Все обозначения, как на рис. 2

Способность оперативно анализировать увиденное, отбрасывая ложные гипотезы и выдвигая новые, может существенно сократить путь к решению стоящих перед индивидом когнитивных задач. Эта способность (как и любая другая) развита у людей по-разному и зависит от индивидуальных и типологических особенностей личности, состояния здоровья, возраста и т.д. В связи с этим кажется заманчивой перспектива практического использования метода при профессиональном отборе для деятельности, требующей оперативного обнаружения/анализа ключевых моментов в потоке зрительной информации, а также в качестве учебно-тренировочного средства специальной подготовки. С другой стороны, представляется привлекательной возможность применения метода для оценки состояния когнитивной сферы пациентов (пожилых людей, больных с признаками симультанной агнозии и других заболеваний, сопряженных с нарушением когнитивных функций).

Заключение

Разработан оригинальный экспериментальный подход к изучению когнитивных процессов, связанных с активным зрительным поиском значимой информации об окружающей действительности. Особенности метода позволяют без применения специального оборудования отслеживать цепь фиксаций взгляда наблюдателя на преобразуемых им локусах зашумленного изображения, кратковременно обретающих четкость. Сильной стороной метода является регистрация отслеживаемых локализаций взгляда непосредственно на изображении, а не вычисление его позиции на основании калибровки. Вследствие этого отпадает необходимость постороннего воздействия на глаза наблюдателя, жесткой фиксации его головы и самой калибровки. Метод надежен и комфортен для пользователей, что позволяет привлекать к участию в экспериментах широкий круг обследуемых. Результаты апробации разработанного подхода подтверждают его высокую валидность. Применяемые при использовании метода приемы (решение зрительных когнитивных задач в условиях дефицита доступной информации; интерпретация маршрутов осмотра изображения с учетом высказываний наблюдателей) расширяют возможности экспериментального исследования когнитивных процессов. Они позволяют, в частности, обнаруживать скрытую в условиях симультанного восприятия значимость элементов (и их сочетаний) рассматриваемого объекта для его распознавания. Обсуждаются перспективы прикладного использования предлагаемого подхода при профессиональном отборе специалистов (для деятельности, требующей оперативного анализа зрительной информации), в клинических условиях (для оценки состояния когнитивной сферы человека).

[1] Точность метода определяется корректным выбором размера окон и продолжительности их предъявления. Увеличение размера создает неопределенность позиции взгляда (положения фиксации) в пределах окна, а увеличение длительности «жизни» окна может приводить к отвлечению внимания [2, 5].


Библиографическая ссылка

Бондарь Г.Г., Гусач Ю.И., Ивлев С.А. СПЕЦИАЛИЗИРОВАННЫЙ «АЙ-ТРЕКИНГ» БЕЗ АЙ-ТРЕКЕРА: ЭКСПЕРИМЕНТАЛЬНЫЙ ПОДХОД К ИЗУЧЕНИЮ КОГНИТИВНЫХ ПРОЦЕССОВ // Международный журнал прикладных и фундаментальных исследований. – 2015. – № 12-2. – С. 324-328;
URL: https://applied-research.ru/ru/article/view?id=7916 (дата обращения: 20.04.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674