Scientific journal
International Journal of Applied and fundamental research
ISSN 1996-3955
ИФ РИНЦ = 0,593

CORRELATION ANALYSIS IN SPREADSHEETS

Kurzaeva L.V. 1
1 Nosov Magnitogorsk State Technical University
Methods of analytical statistics are some of the hardest in terms of studying, however, it is one of the most popular tools in the Arsenal of the analyst. Analysis of the relationship of signs is made in the solution of three main objectives: description and understanding of the relationship; forecasting and prediction of new observation; adjustment and control of the process. Correlation analysis allows to estimate the degree of relationship between the variables. This paper describes a simple method of correlation analysis in Microsoft Excel in example of real statistical data.The contents of this article are of methodological and practical value to teachers working to increase the effectiveness of training in the area of foundations of data analysis with information technology, and implementing the educational process in universities and training courses.
dataanalysis
spreadsheets

Рассмотрим возможности использования пакета Анализ данных в MicrosoftExcel при проведении корреляционно анализа.

Корреляция – это взаимосвязь количественных или порядковых признаков.

Интерпретация корреляции проводится на основании:

1) коэффициента корреляции (r) и его квадрата – коэффициент детерминации (R2), которые свидетельствуют о силе связи; R2 представляет собой долю вариации, общую для двух переменных (иными словами, «степень» зависимости или связанности двух переменных);

2) уровня значимости, вычисленного для каждого коэффициента корреляции, позволяющего судить о надежности корреляции;

3) визуального анализа связи.

Необходимо проанализировать статистические данные по странам Восточной Европы (рис. 1).

Рис. 1. Окно «Корреляция»

Рис. 2. Корреляционная матрица

1_1.png
2_2.png

Рис. 3. Построение диаграммы рассеяния (точечной диаграммы)

Для проведения корреляционного анализа нужно в меню Данные выбрать опцию Анализ данных. В появившемся окне выбрать опцию. Корреляция.

В окне «Корреляция» введите Входной интервал – те данные, которые подлежат анализу. Группирование в нашем примере осуществляется по столбцам (столбцы содержат отдельные показатели по странам). Поле Метки в первой строке следует отметить в том случае, если входной интервал задан вместе с заголовками столбцов/строк.

В разделе окна Параметры вывода укажите, куда следует выводить корреляционную матрицу (квадратная (или прямоугольная) таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами).

Прокомментируем полученную матрицу. Как видно из полученных результатов наибольшая корреляционная зависимость (очень сильная) наблюдается между показателями «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Доля замужних женщин 15-49 лет, использующих современные контрацептивы (%)», где r=0,921214 – скорее всего эти факторы являются следствием одной общей причины.

Наименьшая (очень слабая) между «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Коэффициент рождаемости (на 1000 жителей)», где r=-0,0193514. В то время как взаимосвязь признаков «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» можно оценить как сильную, т.к. r=0,66587291, при этом, скорее всего второй признак является следствием первого, но, скорее всего, на «Число мобильных телефонов на 100 жителей» оказывают влияние еще какие-то факторы.

Для демонстрации возможностей графического метода построим точечную диаграмму (диаграмму рассеяния) по этим признакам.

Полученную диаграмму дополним линией регрессии и коэффициентом достоверности аппроксимации, щелкнув правой кнопкой мыши по точкам диаграммы и выбрав в контекстном меню пункт Линия тренда (рис. 4).

Рис. 4. Добавление линии тренда

3_1.png
4_1.png

Полученная точечная диаграмма позволяет судить не только о разбросе точек вокруг предполагаемой линии тренда, но и увидеть аномальные совместные проявления признаков (рис. 5).

Так, выделенная точка построена по значениям показателей «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» Белоруссии. Анализ и интерпретация появления аномалий должны производиться исходя из знаний о социально-экономической природе рассматриваемого объекта.