Współczynniki korelacji – zadania
Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Pearsona:
DŁUGOŚĆ SERII X(SZT.) | 80 | 90 | 100 | 100 | 110 | 120 |
KOSZT JEDNOSTKOWY Y(ZŁ.) | 12 | 9 | 10 | 9 | 8 | 6 |
Do policzenia korelacji potrzebujemy:
n=6
Do policzenia odchyleń standardowych skorzystamy z poniższej tabeli:
Do obliczenia współczynnika korelacji liniowej użyjemy wzoru:
Potrzebujemy jeszcze policzyć
Teraz mamy już wszystko co jest potrzebne do policzenia współczynnika korelacji:
Czyli między danymi występuje silna ujemna korelacja między długością serii, a kosztem jednostkowym, tzn. gdy rośnie długość serii to spada koszt jednostkowy.
Pewien prowadzący ćwiczenia ze statystyki zbadał zależność między liczbą punktów otrzymanych na kolokwium, a liczbą godzin poświęconych na naukę. Na podstawie 10-elementowej próby otrzymał następujące wyniki:
a) ocenić siłę i rodzaj zależności pomiędzy badanymi cechami
b) oszacuj liczbę punktów studenta, który uczył się do kolokwium 6h
c) podać interpretację parametrów wyznaczonej linii regresji
d) obliczyć współczynnik determinacji i podać jego interpretację
[FMP]
Podstawiając dane do wzoru:
Korelacja jest dość silna, a zależność jest liniowa oraz dodatnia.
b) Aby oszacować liczbę punktów musimy wyznaczyć równanie regresji: y= a*x + b, gdzie:
Czyli równanie regresji wygląda następująco y=2x+2
Teraz podstawiając x = 6 otrzymujemy y=2⋅6+2=14
Szacowana liczba punktów dla studenta, który uczył się 6h wynosil 14 punktów.
c) Parametrami funkcji są a i b, gdzie:
a = 2 oznacza, że:
jeżeli liczba godzin nauki wzrośnie o 1h to liczba punktów wzrośnie o 2, a
jeżeli liczba godzin nauki zmaleje o 1h to liczba punktów zmaleje o 2.
b = 2 oznacza, że przy zerowym czasie nauki student otrzyma 2punkty.
d) Współczynnik determinacji:
Dopasowanie wynosi 0.64 co oznacza, że 64% danych jest wytłumaczonych przez model. Współczynnik jest większy niż 0.6 co oznacza, że dopasowanie jest zadowalające.
[/FMP]
Badając relację pomiędzy ceną szmaragdu (w USD), a jego wagą (w gramach) otrzymano następujące wyniki:
Oblicz współczynnik Preasona i zinterpretuj wyniki.
[FMP]
Vy – współczynnik zmienności określony wzorem: V_{Y} = \frac{s_{y}}{\overline{y}}
wykorzystamy go do obliczenia sy:
Odp: Współczynnik Persona między ceną szmaragdu, a jego wagą wynosi 0.58. Korelacja jest dodatnia co oznacza, że wraz ze wzrostem wagi szmaragu rośnie też jego cena. Siła korelacji jest umiarkowana.
[/FMP]
Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Spearmana:
DŁUGOŚĆ SERII X(SZT.) | 80 | 90 | 100 | 100 | 110 | 120 |
KOSZT JEDNOSTKOWY Y(ZŁ.) | 12 | 9 | 10 | 9 | 8 | 6 |
[FMP]
Teraz przypiszemy odpowiednie pozycje-rangi obserwacji z X i Y:
Ranga to po prostu pozycja w uporządkowanym zbiorze wartości. Przeanalizujmy to na przykładzie danych Y: 12, 9 , 10, 9, 8, 6.
Najpierw uszeregujmy dane: 6, 8, 9, 9, 10, 12
Teraz możemy im przypisać pozycje: 6 – 1, 8 – 2, 9 – 3 i 4, 10 – 5, 12 – 6
Ponieważ 9 pojawia się 2 razy na pozycji 3 i 4 więc ranga dla 9tki będzie wynosić (3+4)/2=3,5
Teraz policzmy różnicę rang Teraz policzmy różnicę rang di oraz d2i
Teraz możemy już skorzystać ze wzoru:
Również w przypadku korelacji Spearmana otrzymaliśmy silnią ujemną korelację między długością serii a kosztem jednostkowym, tzn. gdy rośnie długość serii to spada koszt jednostkowy.
[/FMP]
Zbadano zależność między wysokością zarobków, a wynikiem z testu IQ, wyniki przedstawiono w tabeli. Oblicz siłę korelacji Spearmana pomiędzy zmiennymi.
ZAROBKI | 3000 | 3500 | 3000 | 4000 | 10000 | 5000 | 2000 |
---|---|---|---|---|---|---|---|
IQ | 115 | 100 | 90 | 115 | 120 | 130 | 105 |
[FMP]
Teraz przypiszmy odpowiednie rangi dla X (poziom IQ) oraz Y (zarobki):
Teraz już możemy podstawić wszystko do wzoru:
Odp: Korelacja Spearmana pomiędzy zarobkami a IQ jest silna i wynosi 0.81.
[/FMP]
Pewna firma turystyczna przeprowadziła, wśród swoich klientów, ankietę dotyczącą preferowanego miejsca następnego wyjazdu.
Uszeregowane preferencje przedstawiają się następująco (gdzie 1 to najczęściej zaznaczana opcja, a 7-najrzadziej zaznaczana)
Indie | Brazylia | USA | Francja | Włochy | Chiny | Tajlandia | |
---|---|---|---|---|---|---|---|
Mężczyźni | 4 | 2 | 3 | 6 | 7 | 5 | 1 |
Kobiety | 7 | 5 | 3 | 1 | 2 | 6 | 4 |
Oblicz współczynnik korelacji Spearmana i zinterpretuj wynik.
[FMP]
Ponieważ rangi mamy już policzone, wystarczy policzyć di2
Indie | Brazylia | USA | Francja | Włochy | Chiny | Tajlandia | |
---|---|---|---|---|---|---|---|
Mężczyźni(X) | 4 | 2 | 3 | 6 | 7 | 5 | 1 |
Kobiety(Y) | 7 | 5 | 3 | 1 | 2 | 6 | 4 |
di = RXi - RYi | -3 | -3 | 0 | 5 | 5 | -1 | -3 |
di2 | 9 | 9 | 0 | 25 | 25 | 1 | 9 |
n=7
Teraz możemy przejść do obliczenia współczynnika korelacji Spearmana:
Odp: Współczynnik korelacji Spearmana wynosi -0.39 co oznacza, że mamy do czynienia z słabą, ujemną zależnością.
[/FMP]
Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz funkcję regresji liniowej:
ZAROBKI | 3000 | 3500 | 3000 | 4000 | 10000 | 5000 | 2000 |
---|---|---|---|---|---|---|---|
IQ | 115 | 100 | 90 | 115 | 120 | 130 | 105 |
[FMP]
Część obliczeń została wykonana w poprzednich zadaniach.
Korzystając z powyższych miar:
Regresja liniowa przedstawia się wzorem:
Y = -0.13X + 22
Co oznacza, że gdy długość serii (X) wzrośnie o 1 to cena jednostkowa spadnie o 0.13zł .
[/FMP]
Analiza wydatków na rozrywkę w zależności od dochodów w losowej grupie gospodarstw domowych dostarczyła niżej dostępne statystyki:
– średnie wydatki na rozrywkę na osobę wynosiły 150zł
– średnie zarobki na osobę wynosiły 1500zł
– współczynnik zmienności wydatków wynosił 20%
– współczynnik zmienności dochodu wynosił 30%
– kowariancja między zmiennymi wynosiła X
Wyznacz oraz opisz parametry regresji liniowej wydatków na rozrywkę względem zarobków.
[FMP]
Mamy wyznaczyć Y = aX +b
Z ostatniego zdania wynika, że:
X – zarobki
Y – wydatki na rozrywkę
Z treści zadania wynika, że:
Współczynnik zmienności opisujemy wzorem:
Użyjemy współczynnika do wliczenia s (σ):
Teraz możemy przejść do wyznaczenia rxy
Czyli mamy do czynienia z silną zależnością liniową.
Teraz wyznaczymy współczynniki regresji liniowej:
Czyli funkcja regresji liniowej wygląda tak:
y=0.054x+69
Opis regresji:
W powyższym przykładzie mamy do czynienia z silną dodatnią korelacją tzn. gdy rosną zarobki to rosną też wydatki na rozrywkę (a gdy maleją zarobki to maleją wydatki na rozrywkę).
Współczynnik kierunkowy a = 0.054 oznacza, że przy wzroście zarobków o 1zł wydatki na rozrywkę wzrastają o 0.05zł (5gr). Lepiej to zobrazować tak: na każde dodatkowe 100zł do zarobków kwota wydawana na rozrywkę wsrasta o 5zł.
Wyraz wolny b = 69 zł oznacza, że w:
– w przypadku braku zarobków jest to kwota wydawana na rozrywkę
– ponieważ współczynnik kierunkowy a jest dodatni to jest to minimalna kwota (z modelu) wydawana na rozrywkę.
[/FMP]
Mamy dwie cechy:
X [liczba kupionych karpi]
Y [liczba otrzymanych prezentów].
Równanie prostej regresji: y=−2x+10
Święty Mikołaj nie zgadza się z tymi wyliczeniami.
Kto ma rację i dlaczego?
[FMP]
Sprawdźmy czy poprawnie zostały wyliczone parametry funkcji regresji y=ax+b. Aby to zrobić należy sprawdzić każdy parametr osobno:
Sprawdzenie parametru b:
y=−2x+10
Za x i y podstawiamy \overline{X}, \overline{Y}
6=−2⋅2+10=−4+10=6
Lewa strona równa się prawej więc w przypadku współczynnika b nie mam się do czego przyczepić.
Sprawdzenie parametru a:
Nie znamy σ2x jednak to co możemy powiedzieć o wariancji to to, że jest nieujemna, czyli σ2x≥0.
Wynika to po pierwsze z samej własności wariancji, po drugie z faktu, że sx jest liczbą rzeczywistą, a każda liczba rzeczywista podniesiona do kwadratu jest nie mniejsza od 0.
Tak właściwie to σ2x>0 ponieważ dla σ2x=0 wszystkie obserwacje mają tę samą wartość więc nie ma sensu liczyć regresji liniowej.
W y=−2x+10: a = -2, czyli widzimy negatywną relację między x, a y (gdy x rośnie to y maleje, gdy x maleje to y rośnie).
Z kolei skoro z założenia σ2x>0 oraz Cov(X,Y)>0 mamy, że:
Czyli z danych wychodzi, że a musi być dodatnie, a funkcja regresji liniowej pokazuje, że a jest ujemne, czyli Święty Mikołaj miał jak zawsze rację:)
[/FMP]
Przeanalizujmy wyniki z Zadania 1 z tematu Regresja liniowa.
Funkcja regresji: Y = -0.13X + 22
rxy = 0,92
1) Oblicz oraz zinterpretuj współczynniki zbieżności oraz determinacji.
2) Czy możemy przewidzieć Y dla X = 150? Jak tak ile wynosi Y w tym przypadku?
3) Czy możemy przewidzieć Y dla X = 200? Jak tak ile wynosi Y w tym przypadku?
[FMP]
czyli dopasowanie jest dobre, 85% danych jest wytłumaczona przez model
φ2=1–0.85=0.15 – tylko 15% danych nie jest wytłumaczona przez model
2)
Spójrzmy najpierw na zakres danych z zadania.
X jest w zakresie od 80 do 120 co oznacza, że 150 odbiega od zakresu danych więc powinniśmy mniej wierzyć naszej predykcji!
Policzmy najpierw wartość Y dla X = 150:
Y=−0.13⋅150+22=−19.5+22=3.5
Y > 0 więc wynik jest rozsądny (gdy koszt jednostkowy wyszedł ujemny to byśmy nie dowierzali w taką predykcję).
Ponieważ Y > 0, R2 jest bliskie 1 oraz 150 nie jest aż tak daleko od 120 możemy przyjąć, że da się prognozować wartość Y dla X = 150 jednak mamy świadomość, że jest to predykcja bardziej niepewna.
Odp: Można przewidywać wartość Y dla X = 150. Przy długości serii 150szt. koszt jednostkowy wyniesie 3.5zł.
3)
Policzmy najpierw wartość Y dla X = 200:
Y=−0.13⋅200+22=−26+22=−4
200 jest bardzo odległe od największej wartości dla X (120). Dodatkowo wartość Y jest nierealna więc nie możemy przyjąć tej predykcji mimo wysokiego R2
Odp: Nie można przewidywać wartość Y dla X = 200.
[/FMP]
Mamy funkcję regresji Y = 2X + 3, która została wyliczona dla X z przedziału [1, 10] oraz rxy = 0.2
1) Oblicz oraz zinterpretuj współczynniki zbieżności oraz determinacji.
2) Czy powinniśmy przewidywać Y dla X = 12?
[FMP]
czyli dopasowanie jest słabe, ponieważ tylko 4% danych jest wytłumaczalnych!
φ2=1–0.04=0.96 – tylko 96% danych nie jest wytłumaczona przez model.
2) Z racji bardzo małego R2 ten model nie powinien być używany do przewidywania czegokolwiek, ponieważ błędy będą znaczące i nie ważne czy X pochodzi z przedziału [1, 10], czy nie.
Odp: Z powodu małego R2 model nie powinien być wykorzystywany do predykcji.
[/FMP]
Dysponując poniższymi statystykami oblicz współczynniki zbieżności i determinacji:
sx=20 , sy=30, a=0.9
[FMP]
Najpierw skorzystamy ze wzoru na a:
Teraz możemy już z łatwością obliczyć współczynniki zbieżności i determinacji:
Odp: współczynnik determinacji wynosi 0.36, a współczynnik zbieżności 0.64.
[/FMP]
Oblicz kowariancję wykorzystując dane z tabeli
Marcin Xi | 3 | 5 | 4 | 2 | 3 |
---|---|---|---|---|---|
Dominik Yi | 4 | 4 | 3 | 2 | 3 |
[FMP]
Do policzenia kowariancji użyję wzoru po prawej stronie gdyż jest on nieco prostszy.
Najpierw policzmy średnie dla X i Y:
n = 5
Marcin Xi | 3 | 5 | 4 | 2 | 3 |
Dominik Yi | 4 | 4 | 3 | 2 | 3 |
XiYi | 12 | 20 | 12 | 4 | 9 |
Teraz możemy przejść do obliczenia kowariancji:
Odp: Kowariancja wynosi 0.52
Aby ocenić jak silna jest ta zależność należy policzyć współczynnik korelacji Pearsona
[/FMP]
Współczynnik korelacji
Jednym z parametrów dwuwymiarowego rozkładu, wykorzystywanym do oceny siły zależności między zmiennymi, jest współczynnik korelacji(zwany również współczynnikiem korelacji Pearsona).
Współczynnik korelacji r w rozkładzie empirycznym zmiennych X, Y określony jest wzorem:
gdzie cxy jest kowariancją w dwuwymiarowym rozkładzie empirycznym, natomiast sx oraz sy są odchyleniami standardowymi w empirycznych rozkładach brzegowych, odpowiednio, zmiennej X oraz Y.
Współczynnik korelacji r może być rozpatrywany jako parametr rozkładu empirycznego w skończonej zbiorowości bądź jako estymator współczynnika korelacji p w populacji generalnej, jeśli tą skończoną zbiorowością jest próba losowa pobrana z pewnej populacji generalnej.
Współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji p w rozkładzie zmiennych losowych. Własności te wynikają z własności kowariancji. Tak więc
- współczynnik korelacji r przyjmuje wartości z przedziału <-1;1>
- współczynnik r równy jest zeru, gdy cechy są liniowa nieskorelowane
- moduł współczynnika korelacji r równy jest jedności wtedy i tylko wtedy, gdy między cechami zachodzi funkcyjny związek liniowy
W odróżnieniu od poprzednio omawianych miar, współczynnik korelacji określa kierunek zależności. Jest to możliwe, współczynnik korelacji mierzy bowiem liniowe skorelowanie zmiennych. W przypadku zależności nieliniowych mówienie o jednym, generalnym kierunku zależności może nie mieć sensu. Bezwzględna wartość współczynnika korelacji wskazuje na siłę liniowego skorelowania cech, wyrażającą stopień (liniowej) determinacji wartości jednej cechy przez wartości drugiej cechy.
Z definicji współczynnika korelacji wnika, iż współczynnik ten – w przeciwieństwie do wskaźników korelacyjnych – przyjmuje taką samą wartość niezależnie od tego, którą z cech przyjmujemy za zależną, a którą za niezależną. Ponadto, współczynnik korelacji może być obliczany zarówno na podstawie danych indywidualnych, jak i pogrupowanych w tablicy korelacyjnej, pod warunkiem że obie rozpatrywane cechy są mierzalne.
Należy podkreślić, że wśród prezentowanych miar sił zależności między zmiennymi współczynnik korelacji, jako jedyny, informuje o kierunku zależności. Z przeprowadzonej analizy prostej regresji II wymiaru wiemy, że gdy korelacja między zmiennymi jest dodatnia (tzn. gdy wzrost wartości zmiennej niezależnej pociąga za sobą wzrost wartości zmiennej zależnej, czyli te zmiany są jednokierunkowe), kowariancja przyjmuje wartość większą od zera, a w konsekwencji również współczynnik korelacji jest dodatni. Podobnie, gdy wzrost wartości zmiennej niezależnej pociąga za sobą spadek wartości zmiennej zależnej, kowariancja, a wraz z nią współczynnik korelacji, przyjmuje wartości ujemne. Przy zależnościach nieliniowych zmiany zmiennej zależnej wywoływane zmianami zmiennej niezależnej są różne dla różnych obszarów zmienności tej ostatniej.
We wnioskowaniu statystycznym , dotyczącym wartości współczynnika korelacji w populacji generalnej, ograniczymy się do weryfikacji jednego typu hipotezy statystycznej co do wartości tego współczynnika, mianowicie, że przyjmuje on wartość zero.
Współczynnik korelacji rang Spearmana
Przy badaniu cech niemierzalnych nie można, z oczywistych powodów, wykorzystać bezpośrednio omówionych wyżej miar zależności. W przypadku jednak, gdy badane cechy niemierzalne mają charakter porządkowy, możliwe jest nadanie wariantom cech rang wartości umownych, którymi są numery miejsc zajmowanych przez obserwacje w uporządkowanym ciągu.
Badanie zależności między cechami niemierzalnymi może polegać wtedy na badaniu korelacji między rangami przyporządkowanymi wariantom tych cech, tzn. na badaniu stopnia odpowiedniości między rangami.
Odpowiednie postępowanie, prowadzące do określenia tzw. współczynnika korelacji rang, zaproponował w 1906r. C. Spearman. Oznaczamy przez ai, rangę przyporządkowane i-tej obserwacji z pierwszego ciągu, przez bi – rangę przyporządkowaną i-tej jednostce w drugim ciągu oraz przez di – różnicę między rangami przyporządkowanymi i-tej jednostce w obu ciągach tzn.:di=ai-bi. Współczynnik korelacji rang Spearmana jest zdefiniowany wtedy jako zwykły współczynnik korelacji r Pearsona dla rang ai i bi. Jeśli w zbiorze danych nie ma obserwacji powiązanych, tzn. podzbioru obserwacji, których nie można uporządkować, wzór na współczynnik korelacji rang można przedstawić w postaci:
Współczynnik rs przyjmuje wartości z przedziału <-1,1>. Współczynnik rs=1, gdy występuje idealna zgodność rang w obu ciągach; rs= -1, gdy występuje maksymalna niezgodność rang, tzn. najwyższej randze w jednym ciągu odpowiada najniższa ranga w drugim itd., oraz rs=0, gdy rangi w obu ciągach są niezależne, tzn. występuje czysto losowe kojarzenie się rang w obu ciągach.