Рассмотрим возможности использования пакета Анализ данных в MicrosoftExcel при проведении корреляционно анализа.
Корреляция – это взаимосвязь количественных или порядковых признаков.
Интерпретация корреляции проводится на основании:
1) коэффициента корреляции (r) и его квадрата – коэффициент детерминации (R2), которые свидетельствуют о силе связи; R2 представляет собой долю вариации, общую для двух переменных (иными словами, «степень» зависимости или связанности двух переменных);
2) уровня значимости, вычисленного для каждого коэффициента корреляции, позволяющего судить о надежности корреляции;
3) визуального анализа связи.
Необходимо проанализировать статистические данные по странам Восточной Европы (рис. 1).
Рис. 1. Окно «Корреляция»
Рис. 2. Корреляционная матрица
![1_1.png](/i/2016/12-7/1_1_fmt.jpg)
![2_2.png](/i/2016/12-7/2_2_fmt.jpg)
Рис. 3. Построение диаграммы рассеяния (точечной диаграммы)
Для проведения корреляционного анализа нужно в меню Данные выбрать опцию Анализ данных. В появившемся окне выбрать опцию. Корреляция.
В окне «Корреляция» введите Входной интервал – те данные, которые подлежат анализу. Группирование в нашем примере осуществляется по столбцам (столбцы содержат отдельные показатели по странам). Поле Метки в первой строке следует отметить в том случае, если входной интервал задан вместе с заголовками столбцов/строк.
В разделе окна Параметры вывода укажите, куда следует выводить корреляционную матрицу (квадратная (или прямоугольная) таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами).
Прокомментируем полученную матрицу. Как видно из полученных результатов наибольшая корреляционная зависимость (очень сильная) наблюдается между показателями «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Доля замужних женщин 15-49 лет, использующих современные контрацептивы (%)», где r=0,921214 – скорее всего эти факторы являются следствием одной общей причины.
Наименьшая (очень слабая) между «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Коэффициент рождаемости (на 1000 жителей)», где r=-0,0193514. В то время как взаимосвязь признаков «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» можно оценить как сильную, т.к. r=0,66587291, при этом, скорее всего второй признак является следствием первого, но, скорее всего, на «Число мобильных телефонов на 100 жителей» оказывают влияние еще какие-то факторы.
Для демонстрации возможностей графического метода построим точечную диаграмму (диаграмму рассеяния) по этим признакам.
Полученную диаграмму дополним линией регрессии и коэффициентом достоверности аппроксимации, щелкнув правой кнопкой мыши по точкам диаграммы и выбрав в контекстном меню пункт Линия тренда (рис. 4).
Рис. 4. Добавление линии тренда
![3_1.png](/i/2016/12-7/3_1_fmt.jpg)
![4_1.png](/i/2016/12-7/4_1_fmt.jpg)
Полученная точечная диаграмма позволяет судить не только о разбросе точек вокруг предполагаемой линии тренда, но и увидеть аномальные совместные проявления признаков (рис. 5).
Так, выделенная точка построена по значениям показателей «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» Белоруссии. Анализ и интерпретация появления аномалий должны производиться исходя из знаний о социально-экономической природе рассматриваемого объекта.
Библиографическая ссылка
Курзаева Л.В. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ В ЭЛЕКТРОННЫХ ТАБЛИЦАХ // Международный журнал прикладных и фундаментальных исследований. – 2016. – № 12-7. – С. 1230-1233;URL: https://applied-research.ru/ru/article/view?id=11018 (дата обращения: 27.07.2024).