Współczynniki korelacji – teoria
Współczynnik korelacji liniowej – Pearsona
Współczynnik korelacji Pearsona wykorzystywany jest do badania zależności liniowych pomiędzy danymi. Jest znormalizowaną kowariancją. Wynik zawsze mieści się w przedziale od -1 do 1.
Załóżmy, że posiadamy dane dotyczące wielkości działki (X) oraz ceny jej kupna (Y). Dzięki współczynnikowi korelacji liniowej Pearsona możemy określić czy kupując większą działkę koszt będzie proporcjonalnie większy – istnieje możliwość, że większa działka będzie tańsza (może być położona w mniej korzystnej lokalizacji) lub nie będzie proporcjonalnie droższa (np. aktualnemu właścicielowi zależy na sprzedaży)
Interpretacja współczynnika Pearsona:
- r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
- r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
- r < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji dla|r|:
0-0.2 – bardzo słaba zależność
0.2-0.4 – słaba zależność
0.4-0.6 – umiarkowana zależność
0.6-0.8 – silna zależność
0.8-1 – bardzo silna zależność
Siła korelacji informuje nas o tym jaka część danych zachowuje się w sposób jaki oczekujemy, np. przy założeniu, że r<0 (gdy X rośnie to Y maleje) – gdy r wynosi- 0.3 oznacza to, że tylko część danych spełnia zależność. Korelacja jest widoczna, ale często zdarzają się odstępstwa. W przypadku gdy r jest bliskie 1 lub -1 praktycznie wszystkie dane spełniają założenia.
![Rendered by QuickLaTeX.com \[r_{xy} = \frac{\sum (X_{i} - \overline{X}) \cdot (Y_{i} - \overline{Y}) }{\sqrt{\sum (X_{i} - \overline{X})^{2} \cdot \sum (Y_{i} - \overline{Y})^{2}} } = \frac{\frac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}} = \frac{cov(X,Y)}{\sigma_{X} \cdot \sigma_{Y}}\]](https://statystyka.online/wp-content/ql-cache/quicklatex.com-6f7b095e58b6679823ae388de911faaa_l3.png)
Legenda:
Xi, Yi – i-te wartości obserwacji z populacji X i Y
![]()
σx , σy – odchylenie standardowe populacji X i Y
Inne postacie wzoru:
![]()
![Rendered by QuickLaTeX.com \[r_{xy}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}{\sqrt{n\sum_{i=1}^{n}x_{i}^{2}-(\sum_{i=1}^{n}x_{i})^{2}}\sqrt{n\sum_{i=1}^{n}y_{i}^{2}-(\sum_{i=1}^{n}y_{i})^{2}}}\]](https://statystyka.online/wp-content/ql-cache/quicklatex.com-dad92b520ec8eac5a977d8480283fcef_l3.png)
n – liczba obserwacji
Współczynnik korelacji Spearmana
Współczynnik korelacji Spearmana podobnie jak Pearsona służy do badania zależności pomiędzy danymi, jednak w odróżnieniu od niego pozwala badanie dowolnych monotonicznych zależności, nie tylko liniowych.
Np. Załóżmy że posiadamy dane A i B, między którymi zachodzi zależność A = B2. W tym przypadku współczynnik Pearsona byłby bliski 0, podczas gdy współczynnik Spearmana byłby bliski 1.
![]()
gdzie: n – liczba obserwacji
di – różnica między rangami X i Y : RXi − RYi
Rangi określają pozycję na której znajduje się dana zmienna po uporządkowaniu danych. W przypadku gdy wystąpią dwie jednakowe wartości obserwacji, należy przyporządkować im średnią arytmetyczną, która jest obliczana z ich pozycji(numerów)
Interpretacja współczynnika Spearmana:
- r > 0 korelacja dodatnia– gdy wartość X rośnie to Y również wzrasta
- r = 0 brak korelacji– wzrost X nie powoduje zawsze podobnej zmiany Y
- r < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji dla|r|:
0-0.2 – bardzo słaba zależność
0.2-0.4 – słaba zależność
0.4-0.6 – umiarkowana zależność
0.6-0.8 – silna zależność
0.8-1 – bardzo silna zależność
Kowariancja
Kowariancja jest to liczba wyrażająca liniową zależność między zmienną X a Y. Miara kowariancji oparta jest o badanie wspólnej zmienności X i Y, tj. badaniu czy odchylenie zmiennych od ich średnich jest porównywalne dla obu zmiennych. Jeśli nie występuje liniowa zależność między X a Y to kowariancja jest bliska 0 (cov(X,Y) =0) W przypadku gdy zależność jest silna to wartość kowariancji jest odległa od 0(kowariancja może być zarówno dodatnia jak i ujemna).
Nie da się jednak jednoznacznie stwierdzić jak duża powinna być w takim przypadku jej wartość, ponieważ kowariancja jest miarą nieunormowaną, co oznacza że na jej podstawie nie da się określić siły zależności liniowej.
![]()
![]()
![]()
Relacja między kowariancją a korelacją:
![]()
σx, σy – odchylenia standardowe zmiennych X i Y
Regresja liniowa(prosta)
Regresja liniowa(prosta) wykorzystywana jest do szacowania wartości Y w sytuacji gdy dysponujemy wartością X. Zmienna X nazywana jest zmienną objaśniającą, a Y zmienną objaśnianą. Podczas gdy współczynnik korelacji liniowej informuje nas o tym jak silnie dane są od siebie zależne, regresja liniowa pozwala stwierdzić jak bardzo zmieni się Y podczas zmiany X.
Regresja liniowa przedstawiana jest poniższym wzorem:
y=a⋅x+b
a – współczynnik kierunkowy prostej regresji
b – wyraz wolny prostej regresji
![]()
![]()
gdzie:
![]()
![]()
![]()
![]()
![]()
