Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,593

SYSTEMS OF SCIENTIFIC RECOMMENDATIONS

Mamay I.B. 1 Ilin D.A. 2 Limonova E.E. 2 Putintsev D.N. 3
1 NUST MISiS
2 Moscow Institute of Physics and Technology (State University)
3 Institute for Systems Analysis
1133 KB
Examples of scientific advisory systems are referral systems, referee selection systems, citation advisory systems and recommendations systems for scientific articles and journals. The problems of making recommendations with respect to scientific objects (for example, scientific articles, journals, researchers) differ substantially from traditional recommendations on consumer goods or films. The subject of promising research in the field of recommending systems are models that integrate subject and semantic aspects into a single infrastructure. One of the effective methods for identifying social ties between researchers is a cluster analysis based on the segmentation of thematic interests. The article acquaints with the existing approaches used in the systems of scientific recommendations, and gives a description of modern algorithms for the formation of recommendations. Methods based on three principles are considered: content-oriented filtering, collaborative filtering, and a combined method.
scientific advice
content-oriented filtering
collaborative filtering
hybrid approach

Главное предназначение систем рекомендаций заключается в поддержке навигации целевого пользователя по сложному информационному пространству. В основе выработки рекомендаций находится совокупность знаний системы о пользователе, других пользователях в системе, и самого информационного пространства. Все системы используют информацию о пользователе (иногда называемую профилем пользователя, пользовательской моделью или пользовательскими настройками) для формирования рекомендаций. Примерами научных рекомендательных систем являются реферативные системы, рекомендательные системы подбора рецензентов, цитатные рекомендательные системы и системы рекомендаций по научным статьям и журналам [12].

Проблема выработки рекомендаций применительно к научным объектам (например, научным статьям, журналам, научным сотрудникам) существенно отличается от традиционных рекомендательных задач по потребительским товарам или фильмам. Контент-ориентированные подходы, основанные на анализе содержимого, используют при определении соответствия предпочтениям потенциальных объектов, в основном, ключевые слова или фразы из предметной области, игнорируя при этом семантические связи (например, соавторство и цитирование).

Предметом перспективных исследований в области рекомендующих систем являются модели, объединяющие предметные и семантические аспекты в единую инфраструктуру [3]. Одним из эффективных методов выявления социальных связей между исследователями является кластер-анализ, основанный на сегментации тематических интересов.

Рекомендательная система подбора рецензентов фокусируется на поиске соответствующих рецензентов для научных документов. Рекомендательная система научных статей ориентирована на подбор специализированных научных документов для исследователей. Цитатные рекомендательные системы, анализируя содержание основного текста, подбирают релевантные запросу цитаты [10].

Подходы, применяемые в современных рекомендательных системах для научных исследований, могут быть объединены в три группы [2]:

– подходы, основанные на анализе содержимого;

– методы коллаборативной фильтрации;

– гибридные методы.

Контент-ориентированные подходы

Контент-ориентированные подходы сосредотачивают внимание на сопоставлении текстовых документов с точки зрения близости ключевых слов и используют несколько методов, в том числе латентный семантический анализ (ЛСА) [5,9,13], векторная модель семантики (VSM) [0].

Контент-ориентированные методы для выработки рекомендаций используют информацию от самих объектов.

Для данных методов можно привести некоторые характеристики:

– предопределенные представление и организация документов;

– представление текущих интересов пользователя;

– наличие стадии сравнения, результатом которой является набор соответствующих документов;

– наличие стадии оценки выбранных документов;

– динамический характер интересов пользователя.

Интересы пользователя представляются в виде запросов, состоящих в большинстве случаев из ключевых слов, описывающих потребности пользователя.

В дополнение к указанным характеристикам следует отметить некоторые другие важные аспекты:

– выдача соответствующих документов может быть произведена как из статического корпуса, так и постоянно меняющегося корпуса;

– ранжирование документов может быть выполнено как по релевантности, так и по времени создания;

– запрос может быть сохранен в информационной модели пользователя.

Общими чертами всех моделей, используемых в контент-ориентированных рекомендательных системах, являются индексация и классификация содержимого каждого документа в корпусе документов. Приведем краткие описания трех моделей.

Модель логического поиска

В модели логического поиска пользовательский запрос может состоять из нескольких подзапросов (терминов), соединенных логическими операторами. Это модель «с точным соответствием», в которой терминам запроса должны соответствовать термины, найденные в соответствующих документах. Эта модель не предусматривает ранжирования релевантности.

Векторная модель

В векторной модели документ моделируются как вектор в многомерном векторном пространстве терминов [1]. Каждому измерению пространства соответствует термин из корпуса документов. Значение каждой из компонент вектора документа равно оценке TFIDF важности термина в тексте документа, которую можно определить следующим образом.

Обозначим TF (term frequency) – это нормализованная частота слова в тексте, которая определяется по формуле

mam001.wmf (1)

где mam002.wmf – количество слов t в документе d. Величина TF принимает значения из отрезка [0,1].

Пусть mam003.wmf – обратная частота документов (inverse document frequency).

mam004.wmf (2)

где mam005.wmf – количество документов в наборе, mam006.wmf – количество документов, в которых встречается слово t.

Искомая оценка TFIDF вычисляется как произведение TF на IDF.

mam007.wmf (3)

Сходство между документами можно оценить с помощью вычисления косинуса угла между векторами.

Вероятностная модель

В вероятностных моделях в качестве меры релевантности запроса к различным документам используется вероятность. Для этого строится байесовский классификатор, который должен предсказать вероятность того, что страница pj принадлежит к классу Ci (т.е. является важной или неважной) исходя из ключевых слов mam008.wmf на этой странице.

Методы коллаборативной фильтрации

Традиционные методы коллаборативной фильтрации, используемые в научных рекомендательных системах, точно предсказывают предметы интереса для активного пользователя, основываясь на ранее известных предпочтениях похожих пользователей. Более точно основное предположение формулируется следующим образом: пользователи, которые ранее имели похожие мнения по вопросам в некоторой предметной области, в будущем будут также иметь схожие мнения. В рекомендательных системах, основанных на коллаборативной фильтрации, организуется сбор мнений пользователей об объектах. Эта информация хранится в матрице рейтингов. Например, можно построить три различных рейтинговых матрицы: автор-цитирование, статья-цитирование, и цитирование-цитирование. Отметим, что часто возникает ситуация, когда матрица рейтингов оказывается разреженной. В этом случае значения нулевых элементов матрицы рейтингов активного пользователя заменяются совокупными рейтингами объектов, построенными на основании информации, полученной от других пользователей. Для этого в системе организуется поиск k пользователей, наиболее похожих на активного пользователя, и которых будем именовать соседями. Совокупные рейтинги соседей предполагается использовать в качестве рекомендаций для активного пользователя.

Существует несколько методов вычисления сходства между двумя пользователями [7,11]. Наиболее часто используется метод с использованием корреляции Пирсона. Для активного пользователя a и другого пользователя u корреляция Пирсона mam012.wmf определяется по формуле

mam013.wmf, (4)

где суммирование выполняется по всем объектам с рейтингами от пользователей a и u; mam014.wmf – средний рейтинг пользователя f; mam015.wmf – стандартное отклонение рейтинга пользователя f.

На основе сходства между всеми пользователями отбираются k наиболее похожих на активного пользователя с дальнейшим объединением их рейтингов. Для этого формируется набор элементов, у которых присутствуют рейтинги соседей и у которых отсутствуют рейтинги активного пользователя. Совокупный рейтинг mam016.wmf для активного пользователя a и объекта i из полученного набора определяется по формуле

mam018.wmf, (5)

где суммирование выполняется по всем k соседям пользователя a.

Очевидно, что данные методы являются менее эффективными в случае недостаточного числа оценок от других пользователей.

Использование методов коллаборативной фильтрации эффективно для выработки рекомендаций по статьям, цитатам и при поиске экспертов.

Гибридный подход

Гибридный подход предусматривает сочетание контент-ориентированных методов и коллаборативной фильтрации. Комбинирование методов позволяет избежать ограничений, свойственных каждому подходу. Например, Хванг и Чжуан [8] предложили подход, сочетающий информацию о содержании статьи и информацию об интернет-активности её использования, для выработки рекомендаций в контексте цифровой библиотеки. Хе и др. [0] создали интегральную модель, комбинирующую лингвистическую модель с анализом цитируемости, для получения рекомендаций относительно цитат для научно-исследовательских работ.

Заключение

В данной работе была изложена классификация методов, используемых в системах научных рекомендаций. Каждый подход обладает своими преимуществами и ограничениями, учитывая которые определяются области их эффективного применения. Отмечено, что комбинирование различных алгоритмов позволяет построить более точную систему научных рекомендаций.

Работа выполнена при финансовой поддержке РФФИ (проект №16–29–12875).