Współczynniki korelacji – teoria

Współczynnik korelacji liniowej – Pearsona

Współczynnik korelacji Pearsona wykorzystywany jest do badania zależności liniowych pomiędzy danymi. Jest znormalizowaną kowariancją. Wynik zawsze mieści się w przedziale od -1 do 1.
Załóżmy, że posiadamy dane dotyczące wielkości działki (X) oraz ceny jej kupna (Y). Dzięki współczynnikowi korelacji liniowej Pearsona możemy określić czy kupując większą działkę koszt będzie proporcjonalnie większy – istnieje możliwość, że większa działka będzie tańsza (może być położona w mniej korzystnej lokalizacji) lub nie będzie proporcjonalnie droższa (np. aktualnemu właścicielowi zależy na sprzedaży)

Interpretacja współczynnika Pearsona:

  1. r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
  2. r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
  3. r < 0 korelacja ujemna– gdy X rośnie to Y maleje

Siła korelacji dla|r|:

0-0.2 – bardzo słaba zależność

0.2-0.4 – słaba zależność

0.4-0.6 – umiarkowana zależność

0.6-0.8 – silna zależność

0.8-1 – bardzo silna zależność

Siła korelacji informuje nas o tym jaka część danych zachowuje się w sposób jaki oczekujemy, np. przy założeniu, że r<0 (gdy X rośnie to Y maleje) – gdy r wynosi- 0.3 oznacza to, że tylko część danych spełnia zależność. Korelacja jest widoczna, ale często zdarzają się odstępstwa. W przypadku gdy r jest bliskie 1 lub -1 praktycznie wszystkie dane spełniają założenia.

    \[r_{xy} = \frac{\sum (X_{i} - \overline{X}) \cdot (Y_{i} - \overline{Y}) }{\sqrt{\sum (X_{i} - \overline{X})^{2} \cdot \sum (Y_{i} - \overline{Y})^{2}} } = \frac{\frac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}} = \frac{cov(X,Y)}{\sigma_{X} \cdot \sigma_{Y}}\]

Legenda:

Xi, Yi – i-te wartości obserwacji z populacji X i Y

    \[\overline{X}, \overline{Y} - srednie\, z \, populacji \, X\, i\, Y\]

σx , σy – odchylenie standardowe populacji X i Y

Inne postacie wzoru:

    \[r_{xy}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-n\overline{x}\overline{y}}{n\sigma_{x}\sigma_{y}}\]

    \[r_{xy}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}{\sqrt{n\sum_{i=1}^{n}x_{i}^{2}-(\sum_{i=1}^{n}x_{i})^{2}}\sqrt{n\sum_{i=1}^{n}y_{i}^{2}-(\sum_{i=1}^{n}y_{i})^{2}}}\]

n – liczba obserwacji

Współczynnik korelacji liniowej Pearsona

Współczynnik korelacji Spearmana

Współczynnik korelacji Spearmana podobnie jak Pearsona służy do badania zależności pomiędzy danymi, jednak w odróżnieniu od niego pozwala badanie dowolnych monotonicznych zależności, nie tylko liniowych.
Np. Załóżmy że posiadamy dane A i B, między którymi zachodzi zależność A = B2. W tym przypadku współczynnik Pearsona byłby bliski 0, podczas gdy współczynnik Spearmana byłby bliski 1.

    \[\Large r_{s} = 1- \frac{6 \cdot \sum d^{2}_{i}}{n(n^{2}-1)}\]

gdzie: n – liczba obserwacji

di – różnica między rangami X i Y : RXi − RYi

Rangi określają pozycję na której znajduje się dana zmienna po uporządkowaniu danych. W przypadku gdy wystąpią dwie jednakowe wartości obserwacji, należy przyporządkować im średnią arytmetyczną, która jest obliczana z ich pozycji(numerów)

Interpretacja współczynnika Spearmana:

  1. r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
  2. r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
  3. r < 0 korelacja ujemna– gdy X rośnie to Y maleje

Siła korelacji dla|r|:

0-0.2 – bardzo słaba zależność

0.2-0.4 – słaba zależność

0.4-0.6 – umiarkowana zależność

0.6-0.8 – silna zależność

0.8-1 – bardzo silna zależność

Kowariancja

Kowariancja jest to liczba wyrażająca liniową zależność między zmienną X a Y. Miara kowariancji oparta jest o badanie wspólnej zmienności X i Y, tj. badaniu czy odchylenie zmiennych od ich średnich jest porównywalne dla obu zmiennych. Jeśli nie występuje liniowa zależność między X a Y to kowariancja jest bliska 0 (cov(X,Y) =0) W przypadku gdy zależność jest silna to wartość kowariancji jest odległa od 0(kowariancja może być zarówno dodatnia jak i ujemna).
Nie da się jednak jednoznacznie stwierdzić jak duża powinna być w takim przypadku jej wartość, ponieważ kowariancja jest miarą nieunormowaną, co oznacza że na jej podstawie nie da się określić siły zależności liniowej.

    \[cov(X,Y) = \frac{1}{n}\sum (X_{i}-\overline{X})(Y_{i}-\overline{Y}) = \frac{1}{n}\sum X_{i} Y_{i} - \overline{X} \overline{Y}\]

    \[X_{i}, Y_{i} - wartosci\, zmiennych\, X\, i\, Y\]

    \[\overline{X}, \overline{Y} - srednie \, zmiennych\, X\, i\, Y\]

 

Relacja między kowariancją a korelacją: 

    \[cov(X,Y) = r_{xy} \sigma_{x} \sigma_{y}\]

σx, σy – odchylenia standardowe zmiennych X i Y

Regresja liniowa(prosta)

Regresja liniowa(prosta) wykorzystywana jest do szacowania wartości Y w sytuacji gdy dysponujemy wartością X. Zmienna X nazywana jest zmienną objaśniającą, a Y zmienną objaśnianą. Podczas gdy współczynnik korelacji liniowej informuje nas o tym jak silnie dane są od siebie zależne, regresja liniowa pozwala stwierdzić jak bardzo zmieni się Y podczas zmiany X.

Regresja liniowa przedstawiana jest poniższym wzorem:

y=a⋅x+b

a – współczynnik kierunkowy prostej regresji

b – wyraz wolny prostej regresji

    \[a = \frac{\sum ( X_{i}- \overline{X} ) \cdot( Y_{i}- \overline{Y} ) }{\sum ( X_{i}- \overline{X} )^{2}} = \frac{cov(X,Y)}{\sigma^{2}_{x}} = r_{xy} \cdot \frac{\sigma_{y}}{\sigma_{x}}\]

    \[b = \overline{Y} - a \cdot \overline{X}\]

gdzie:

    \[X_{i}, Y_{i} - wartosci\; zmiennych\; X\; i\; Y\]

    \[\overline{X}, \overline{Y}- srednie\; zmiennych\; X\; i\; Y\]

    \[cov(X,Y)-kowariancja\; zmiennych\; X\; i\; Y\]

    \[\sigma_{x},\sigma_{y}-odchylenia\; standardowe\; X\; i\; Y\]

    \[r_{xy}-wspolczynnik\; korelacji\; X\; i\; Y\]

Funkcja regresji

Wspolczynniki korelacji - napis