Метод кореляційного аналізу: приклад. Кореляційний аналіз - це ...

Освіта

У наукових дослідженнях часто виникаєнеобхідність в знаходженні зв'язку між результативними і факторними змінними (врожайністю будь-якої культури і кількістю опадів, зростом і вагою людини в однорідних групах за статтю та віком, частотою пульсу і температурою тіла і т.д.).

Другі є ознаки, що сприяють зміні таких, пов'язаних з ними (першими).

Поняття про корреляционном аналізі

Існує безліч визначень терміну. Виходячи з вищевикладеного, можна сказати, що кореляційний аналіз - це метод, що застосовується з метою перевірки гіпотези про статистичної значущості двох і більше змінних, якщо дослідник їх може вимірювати, але не змінювати.

Є й інші визначення розглянутогопоняття. Кореляційний аналіз - це метод обробки статистичних даних, що полягає у вивченні коефіцієнтів кореляції між змінними. При цьому порівнюються коефіцієнти кореляції між однією парою або великою кількістю пар ознак, для встановлення між ними статистичних взаємозв'язків. Кореляційний аналіз - це метод по вивченню статистичної залежності між випадковими величинами з необов'язковим наявністю суворого функціонального характеру, при якій динаміка однієї випадкової величини призводить до динаміки математичного очікування інший.

Поняття про хибність кореляції

При проведенні кореляційного аналізу необхідновраховувати, що його можна провести по відношенню до будь-якої сукупності ознак, часто абсурдних по відношенню один до одного. Часом вони не мають причинно-наслідкового зв'язку між собою.

У цьому випадку говорять про хибну кореляції.

Завдання кореляційного аналізу

Виходячи з наведених вище визначень, можнасформулювати такі завдання описуваного методу: отримати інформацію про одну з шуканих змінних за допомогою іншої; визначити тісноту зв'язку між досліджуваними змінними.

Кореляційний аналіз передбачає визначення залежності між досліджуваними ознаками, в зв'язку з чим завдання кореляційного аналізу можна доповнити наступними:

  • виявлення факторів, що роблять найбільший вплив на результативну ознаку;
  • виявлення невивчених раніше причин зв'язків;
  • побудова кореляційної моделі з її параметричних аналізом;
  • дослідження значущості параметрів зв'язку та їх интервальная оцінка.

Зв'язок кореляційного аналізу з регресійний

Метод кореляційно-регресійного аналізу
Метод кореляційного аналізу часто вже необмежується перебуванням тісноти зв'язку між досліджуваними величинами. Іноді він доповнюється складанням рівнянь регресії, які отримують за допомогою однойменного аналізу, і що представляють собою опис кореляційної залежності між результуючим і факторним (факторними) ознакою (ознаками). Цей метод в сукупності з даним аналізом становить метод кореляційно-регресійного аналізу.

Умови використання методу

Результативні чинники залежать від одного додекількох факторів. Метод кореляційного аналізу може застосовуватися в тому випадку, якщо є велика кількість спостережень про величину результативних і факторних показників (чинників), при цьому досліджувані фактори повинні бути кількісними і відбиватися в конкретних джерелах. Перше може визначатися нормальним законом - в цьому випадку результатом кореляційного аналізу виступають коефіцієнти кореляції Пірсона, або, в разі, якщо ознаки не підкоряються цим законом, використовується коефіцієнт рангової кореляції Спірмена.

Кореляційний аналіз це

Правила відбору факторів кореляційного аналізу

При застосуванні даного методу необхідновизначитися з факторами, що впливають на результативні показники. Їх відбирають з урахуванням того, що між показниками повинні бути присутніми причинно-наслідкові зв'язки. У разі створення багатофакторної кореляційної моделі відбирають ті з них, які мають істотний вплив на результуючий показник, при цьому взаємозалежні чинники з коефіцієнтом парної кореляції більше 0,85 в кореляційну модель переважно не включати, як і такі, у яких зв'язок з результативним параметром носить непрямолінійний або функціональний характер.

відображення результатів

Результати кореляційного аналізу можуть бути представлені в текстовому і графічному видах. У першому випадку вони представляються як коефіцієнт кореляції, у другому - у вигляді діаграми розкиду.

Результати кореляційного аналізу

При відсутності кореляції між параметрами точкина діаграмі розташовані хаотично, середня ступінь зв'язку характеризується більшим ступенем впорядкованості і характеризується більш-менш рівномірною віддаленістю нанесених відміток від медіани. Сильна зв'язок прагне до прямої і при r = 1 точковий графік являє собою рівну лінію. Зворотна кореляція відрізняється спрямованістю графіка з лівого верхнього в нижній правий, пряма - з нижнього лівого у верхній правий кут.

Тривимірне представлення діаграми розкиду (розсіювання)

Крім традиційного 2D-уявлення діаграми розкиду в даний час використовується 3D-відображення графічного представлення кореляційного аналізу.

Фактори кореляційного аналізу

Також використовується матриця діаграми розсіювання,яка відображає всі парні графіки на одному малюнку в матричному форматі. Для n змінних матриця містить n рядків і n стовпців. Діаграма, розташована на перетині i-го рядка і j-ого стовпця, представляє собою графік змінних Xi в порівнянні з Xj. Таким чином, кожен рядок і стовпець є одним виміром, окрема осередок відображає діаграму розсіювання двох вимірів.

Кореляційний аналіз рішення

Оцінка тісноти зв'язку

Тіснота кореляційної зв'язку визначається покоефіцієнту кореляції (r): сильна - r = ± 0,7 до ± 1, середня - r = ± 0,3 до ± 0,699, слабка - r = 0 до ± 0,299. Дана класифікація не є суворою. На малюнку показана дещо інша схема.

Метод кореляційного аналізу

Приклад застосування методу кореляційного аналізу

У Великобританії було зроблено цікаве дослідження. Воно присвячене зв'язку куріння з раком легенів, і проводилося шляхом кореляційного аналізу. Це спостереження представлено нижче.

Вихідні дані для кореляційного аналізу

професійна група

куріння

смертність

Фермери, лісники і рибалки

77

84

Шахтарі та працівники кар'єрів

137

116

Виробники газу, коксу та хімічних речовин

117

123

Виробники скла і кераміки

94

128

Працівники печей, ковальських, ливарних і прокатних станів

116

155

Працівники електротехніки та електроніки

102

101

Інженерні та суміжні професії

111

118

деревообробні виробництва

93

113

кожевенники

88

104

текстильні робочі

102

88

Виробники робочого одягу

91

104

Працівники харчової, питної та тютюнової промисловості

104

129

Виробники паперу і друку

107

86

Виробництво іншої продуктів

112

96

будівельники

113

144

Художники і декоратори

110

139

Водії стаціонарних двигунів, кранів і т. Д.

125

113

Робочі, не включені в інші місця

133

146

Працівники транспорту і зв'язку

115

128

Складські робочі, комірники, пакувальники і працівники розливних машин

105

115

Канцелярські працівники

87

79

Продавці

91

85

Працівники служби спорту і відпочинку

100

120

Адміністратори і менеджери

76

60

Професіонали, технічні працівники і художники

66

51

Починаємо кореляційний аналіз. Рішення краще починати для наочності з графічного методу, для чого побудуємо діаграму розсіювання (розкиду).

Кореляційний аналіз приклад

Вона демонструє прямий зв'язок. Однак на підставі тільки графічного методу зробити однозначний висновок складно. Тому продовжимо виконувати кореляційний аналіз. Приклад розрахунку коефіцієнта кореляції представлений нижче.

За допомогою програмних засобів (на прикладі MSExcel буде описано далі) визначаємо коефіцієнт кореляції, який становить 0,716, що означає сильну зв'язок між досліджуваними параметрами. Визначимо статистичну достовірність отриманого значення по відповідній таблиці, для чого нам потрібно відняти з 25 пар значень 2, в результаті чого отримаємо 23 і по цьому рядку в таблиці знайдемо r критичне для p = 0,01 (оскільки це медичні дані, тут використовується більш сувора залежність, в інших випадках досить p = 0,05), яке становить 0,51 для даного кореляційного аналізу. Приклад продемонстрував, що r розрахункове більше r критичного, значення коефіцієнта кореляції вважається статистично достовірним.

Використання ПЗ при проведенні кореляційного аналізу

Описуваний вид статистичної обробки данихможе здійснюватися за допомогою програмного забезпечення, зокрема, MS Excel. Кореляційний аналіз в Excel передбачає обчислення наступних параметрів з використанням функцій:

1. Коефіцієнт кореляції визначається за допомогою функції КОРРЕЛ [CORREL] (массив1; массів2). Массів1,2 - осередок інтервалу значень результативних і факторних змінних.

Лінійний коефіцієнт кореляції також називається коефіцієнтом кореляції Пірсона, в зв'язку з чим, починаючи з Excel 2007, можна використовувати функцію ПІРСОН (PEARSON) з тими ж масивами.

Графічне відображення кореляційного аналізу в Excel проводиться за допомогою панелі «Діаграми» з вибором «Точкова діаграма».

Після вказівки вихідних даних отримуємо графік.

2. Оцінка значущості коефіцієнта парної кореляції з використанням t-критерію Стьюдента. Розраховане значення t-критерію порівнюється з табличній (критичної) величиноюданого показника з відповідної таблиці значень розглянутого параметра з урахуванням заданого рівня значущості і числа ступенів свободи. Ця оцінка здійснюється з використанням функції СТЬЮДРАСПОБР (ймовірність; степені_свободи).

3. Матриця коефіцієнтів парної кореляції. Аналіз здійснюється за допомогою засобу «Аналіз даних», в якому вибирається «Кореляція». Статистичну оцінку коефіцієнтів парної кореляції здійснюють при порівнянні його абсолютної величини з табличним (критичним) значенням. При перевищенні розрахункового коефіцієнта парної кореляції над таким критичним можна говорити, з урахуванням заданого ступеня ймовірності, що нульова гіпотеза про значущість лінійного зв'язку не відкидається.

На закінчення

Використання в наукових дослідженнях методукореляційного аналізу дозволяє визначити зв'язок між різними факторами і результативними показниками. При цьому необхідно враховувати, що високий коефіцієнт кореляції можна отримати і з абсурдною пари або безлічі даних, в зв'язку з чим даний вид аналізу потрібно здійснювати на досить великому масиві даних.

Після отримання розрахункового значення r йогобажано порівняти з r критичним для підтвердження статистичної достовірності певної величини. Кореляційний аналіз може здійснюватися вручну з використанням формул, або за допомогою програмних засобів, зокрема MS Excel. Тут же можна побудувати діаграму розкиду (розсіювання) з метою наочного уявлення про зв'язок між досліджуваними факторами кореляційного аналізу і результативним ознакою.