Współczynniki korelacji – teoria
Współczynnik korelacji liniowej – Pearsona
Współczynnik korelacji Pearsona wykorzystywany jest do badania zależności liniowych pomiędzy danymi. Jest znormalizowaną kowariancją. Wynik zawsze mieści się w przedziale od -1 do 1.
Załóżmy, że posiadamy dane dotyczące wielkości działki (X) oraz ceny jej kupna (Y). Dzięki współczynnikowi korelacji liniowej Pearsona możemy określić czy kupując większą działkę koszt będzie proporcjonalnie większy – istnieje możliwość, że większa działka będzie tańsza (może być położona w mniej korzystnej lokalizacji) lub nie będzie proporcjonalnie droższa (np. aktualnemu właścicielowi zależy na sprzedaży)
Interpretacja współczynnika Pearsona:
- r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
- r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
- r < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji dla|r|:
0-0.2 – bardzo słaba zależność
0.2-0.4 – słaba zależność
0.4-0.6 – umiarkowana zależność
0.6-0.8 – silna zależność
0.8-1 – bardzo silna zależność
Siła korelacji informuje nas o tym jaka część danych zachowuje się w sposób jaki oczekujemy, np. przy założeniu, że r<0 (gdy X rośnie to Y maleje) – gdy r wynosi- 0.3 oznacza to, że tylko część danych spełnia zależność. Korelacja jest widoczna, ale często zdarzają się odstępstwa. W przypadku gdy r jest bliskie 1 lub -1 praktycznie wszystkie dane spełniają założenia.
Legenda:
Xi, Yi – i-te wartości obserwacji z populacji X i Y
σx , σy – odchylenie standardowe populacji X i Y
Inne postacie wzoru:
n – liczba obserwacji
Współczynnik korelacji Spearmana
Współczynnik korelacji Spearmana podobnie jak Pearsona służy do badania zależności pomiędzy danymi, jednak w odróżnieniu od niego pozwala badanie dowolnych monotonicznych zależności, nie tylko liniowych.
Np. Załóżmy że posiadamy dane A i B, między którymi zachodzi zależność A = B2. W tym przypadku współczynnik Pearsona byłby bliski 0, podczas gdy współczynnik Spearmana byłby bliski 1.
gdzie: n – liczba obserwacji
di – różnica między rangami X i Y : RXi − RYi
Rangi określają pozycję na której znajduje się dana zmienna po uporządkowaniu danych. W przypadku gdy wystąpią dwie jednakowe wartości obserwacji, należy przyporządkować im średnią arytmetyczną, która jest obliczana z ich pozycji(numerów)
Interpretacja współczynnika Spearmana:
- r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
- r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
- r < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji dla|r|:
0-0.2 – bardzo słaba zależność
0.2-0.4 – słaba zależność
0.4-0.6 – umiarkowana zależność
0.6-0.8 – silna zależność
0.8-1 – bardzo silna zależność
Kowariancja
Kowariancja jest to liczba wyrażająca liniową zależność między zmienną X a Y. Miara kowariancji oparta jest o badanie wspólnej zmienności X i Y, tj. badaniu czy odchylenie zmiennych od ich średnich jest porównywalne dla obu zmiennych. Jeśli nie występuje liniowa zależność między X a Y to kowariancja jest bliska 0 (cov(X,Y) =0) W przypadku gdy zależność jest silna to wartość kowariancji jest odległa od 0(kowariancja może być zarówno dodatnia jak i ujemna).
Nie da się jednak jednoznacznie stwierdzić jak duża powinna być w takim przypadku jej wartość, ponieważ kowariancja jest miarą nieunormowaną, co oznacza że na jej podstawie nie da się określić siły zależności liniowej.
Relacja między kowariancją a korelacją:
σx, σy – odchylenia standardowe zmiennych X i Y
Regresja liniowa(prosta)
Regresja liniowa(prosta) wykorzystywana jest do szacowania wartości Y w sytuacji gdy dysponujemy wartością X. Zmienna X nazywana jest zmienną objaśniającą, a Y zmienną objaśnianą. Podczas gdy współczynnik korelacji liniowej informuje nas o tym jak silnie dane są od siebie zależne, regresja liniowa pozwala stwierdzić jak bardzo zmieni się Y podczas zmiany X.
Regresja liniowa przedstawiana jest poniższym wzorem:
y=a⋅x+b
a – współczynnik kierunkowy prostej regresji
b – wyraz wolny prostej regresji
gdzie: