Współczynniki korelacji – zadania

Aby zobaczyć rozwiązania zadań 2-13 należy wykupić abonament

Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Pearsona:

DŁUGOŚĆ SERII X(SZT.)8090100100110120
KOSZT JEDNOSTKOWY Y(ZŁ.)12910986

Do policzenia korelacji potrzebujemy: 

    \[\overline{X}, \overline{Y}, \sigma _{x}, \sigma _{y}\]

n=6

    \[\overline{X} = \frac{1}{6} \cdot ( 80+90+100+100+110+120 ) = \frac{600}{6} = 100\]

    \[\overline{Y} = \frac{1}{6} \cdot ( 12+9+10+9+8+6 ) = \frac{54}{6} = 9\]

Do policzenia odchyleń standardowych skorzystamy z poniższej tabeli:

    \[VarX = \frac{1}{6} \cdot \sum (X_{i} - \overline{X})^{2} = \frac{1000}{6} \approx 166.67\]

    \[\sqrt{166.67} \approx 12.91\]

    \[VarY = \frac{1}{6} \cdot \sum (Y_{i} - \overline{Y})^{2} = \frac{20}{6} \approx 3.33\]

    \[\sqrt{3.33} \approx 1.82\]

Do obliczenia współczynnika korelacji liniowej użyjemy wzoru:

    \[r_{xy} = \frac{\frac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}}\]

Potrzebujemy jeszcze policzyć

    \[\sum X_{i}Y_{i}\]

    \[\sum X_{i}Y_{i} = 80 \cdot 12 + 90 \cdot 9 + \ldots + 120 \cdot 6 = 5270\]

Teraz mamy już wszystko co jest potrzebne do policzenia współczynnika korelacji:

    \[r_{xy} = \frac{\frac{1}{n}\sum X_{i}Y_{i}- \overline{X}\overline{Y}}{\sigma_{X} \cdot \sigma_{Y}} = \frac{\frac{1}{6}\cdot 5270 - 100 \cdot 9}{12.91 \cdot 1.82} \approx \frac{-21.67}{23.5} \approx -0.92\]

Czyli między danymi występuje silna ujemna korelacja między długością serii, a kosztem jednostkowym, tzn. gdy rośnie długość serii to spada koszt jednostkowy.

Pewien prowadzący ćwiczenia ze statystyki zbadał zależność między liczbą punktów otrzymanych na kolokwium, a liczbą godzin poświęconych na naukę. Na podstawie 10-elementowej próby otrzymał następujące wyniki:

    \[\overline{Y} = 12pkt, \overline{X} = 5h\]

    \[\sum_{i=0}^{10} (X_{i} - \overline{X})^2 = 4\]

    \[\sum_{i=0}^{10} (Y_{i} - \overline{Y})^2 = 25\]

    \[\sum_{i=0}^{10} (X_{i} - \overline{X})(Y_{i} - \overline{Y}) = 8\]

a) ocenić siłę i rodzaj zależności pomiędzy badanymi cechami
b) oszacuj liczbę punktów studenta, który uczył się do kolokwium 6h
c) podać interpretację parametrów wyznaczonej linii regresji
d) obliczyć współczynnik determinacji i podać jego interpretację

Wybierz pakiet:
Zaloguj się lub Wykup
Sprawdź Wykup
Anuluj
Abonament 30 dni
Abonament 90dni

Abonament 30 dni

Dostęp do wszystkich treści serwisu przez 30dni
29,90zł PLN
Sposób zapłaty: Dotpay
Sprawdź
Odblokuj zawartość

Abonament 90 dni

Dostęp do wszystkich treści serwisu przez 90dni
49,90zł PLN
Sposób zapłaty: Dotpay
Sprawdź
Odblokuj zawartość
Anuluj

Badając relację pomiędzy ceną szmaragdu (w USD), a jego wagą (w gramach) otrzymano następujące wyniki:

    \[cov(X,Y) = 700, s^{2}_{x} = 25, \overline{Y} = 800, V_{y} = 30%\]

Oblicz współczynnik Preasona i zinterpretuj wyniki.

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz współczynnik korelacji Spearmana:

DŁUGOŚĆ SERII X(SZT.)8090100100110120
KOSZT JEDNOSTKOWY Y(ZŁ.)12910986

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Zbadano zależność między wysokością zarobków, a wynikiem z testu IQ, wyniki przedstawiono w tabeli. Oblicz siłę korelacji Spearmana pomiędzy zmiennymi.

ZAROBKI30003500300040001000050002000
IQ11510090115120130105

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Pewna firma turystyczna przeprowadziła, wśród swoich klientów,  ankietę dotyczącą preferowanego miejsca następnego wyjazdu.
Uszeregowane preferencje przedstawiają się następująco (gdzie 1 to najczęściej zaznaczana opcja, a 7-najrzadziej zaznaczana)

 IndieBrazyliaUSAFrancjaWłochyChinyTajlandia
Mężczyźni4236751
Kobiety7531264

Oblicz współczynnik korelacji Spearmana i zinterpretuj wynik.

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Zbadano zależność między długością serii produkcyjnej a jednostkowym kosztem produkcji i otrzymano następujące dane. Oblicz funkcję regresji liniowej:

ZAROBKI30003500300040001000050002000
IQ11510090115120130105

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Analiza wydatków na rozrywkę w zależności od dochodów w losowej grupie gospodarstw domowych dostarczyła niżej dostępne statystyki:
– średnie wydatki na rozrywkę na osobę wynosiły 150zł
– średnie zarobki na osobę wynosiły 1500zł
– współczynnik zmienności wydatków wynosił 20%
– współczynnik zmienności dochodu wynosił 30%
– kowariancja między zmiennymi wynosiła X

Wyznacz oraz opisz parametry regresji liniowej wydatków na rozrywkę względem zarobków.

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Mamy dwie cechy:
X [liczba kupionych karpi]
Y [liczba otrzymanych prezentów].
Równanie prostej regresji: y=2x+10

    \[Cov(x,y)=2, \overline{X}=2, \overline{Y}=6\]

Święty Mikołaj nie zgadza się z tymi wyliczeniami.
Kto ma rację i dlaczego?

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Przeanalizujmy wyniki z Zadania 1 z tematu Regresja liniowa.
Funkcja regresji: Y = -0.13X + 22

rxy = 0,92

1) Oblicz oraz zinterpretuj współczynniki zbieżności oraz determinacji.
2) Czy możemy przewidzieć Y dla X = 150? Jak tak ile wynosi Y w tym przypadku?
3) Czy możemy przewidzieć Y dla X = 200? Jak tak ile wynosi Y w tym przypadku?

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Mamy funkcję regresji Y = 2X + 3, która została wyliczona dla X z przedziału [1, 10] oraz rxy = 0.2

1) Oblicz oraz zinterpretuj współczynniki zbieżności oraz determinacji.
2) Czy powinniśmy przewidywać Y dla X = 12?

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Dysponując poniższymi statystykami oblicz współczynniki zbieżności i determinacji:

sx=20 , sy=30, a=0.9

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Oblicz kowariancję wykorzystując dane z tabeli

Marcin Xi35423
Dominik Yi44323

Aby zobaczyć rozwiązanie tego zadania musisz wykupić abonament

Współczynnik korelacji

Jednym z parametrów dwuwymiarowego rozkładu, wykorzystywanym do oceny siły zależności między zmiennymi, jest współczynnik korelacji(zwany również współczynnikiem korelacji Pearsona).

Współczynnik korelacji r w rozkładzie empirycznym zmiennych X, Y określony jest wzorem:

    \[r=\frac{c_{xy}}{s_{x}s_{y}}\]

gdzie cxy jest kowariancją w dwuwymiarowym rozkładzie empirycznym, natomiast sx oraz sy są odchyleniami standardowymi w empirycznych rozkładach brzegowych, odpowiednio, zmiennej X oraz Y.

Współczynnik korelacji r może być rozpatrywany jako parametr rozkładu empirycznego w skończonej zbiorowości bądź jako estymator współczynnika korelacji p w populacji generalnej, jeśli tą skończoną zbiorowością jest próba losowa pobrana z pewnej populacji generalnej.

Współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji p w rozkładzie zmiennych losowych. Własności te wynikają z własności kowariancji. Tak więc

  1. współczynnik korelacji r przyjmuje wartości z przedziału <-1;1>
  2. współczynnik r równy jest zeru, gdy cechy są liniowa nieskorelowane
  3. moduł współczynnika korelacji r równy jest jedności wtedy i tylko wtedy, gdy między cechami zachodzi funkcyjny związek liniowy

W odróżnieniu od poprzednio omawianych miar, współczynnik korelacji określa kierunek zależności. Jest to możliwe, współczynnik korelacji mierzy bowiem liniowe skorelowanie zmiennych. W przypadku zależności nieliniowych mówienie o jednym, generalnym kierunku zależności może nie mieć sensu. Bezwzględna wartość współczynnika korelacji wskazuje na siłę liniowego skorelowania cech, wyrażającą stopień (liniowej) determinacji wartości jednej cechy przez wartości drugiej cechy.

Z definicji współczynnika korelacji wnika, iż współczynnik ten – w przeciwieństwie do wskaźników korelacyjnych – przyjmuje taką samą wartość niezależnie od tego, którą z cech przyjmujemy za zależną, a którą za niezależną. Ponadto, współczynnik korelacji może być obliczany zarówno na podstawie danych indywidualnych, jak i pogrupowanych w tablicy korelacyjnej, pod warunkiem że obie rozpatrywane cechy są mierzalne.
Należy podkreślić, że wśród prezentowanych miar sił zależności między zmiennymi współczynnik korelacji, jako jedyny, informuje o kierunku zależności. Z przeprowadzonej analizy prostej regresji II wymiaru wiemy, że gdy korelacja między zmiennymi jest dodatnia (tzn. gdy wzrost wartości zmiennej niezależnej pociąga za sobą wzrost wartości zmiennej zależnej, czyli te zmiany są jednokierunkowe), kowariancja przyjmuje wartość większą od zera, a w konsekwencji również współczynnik korelacji jest dodatni. Podobnie, gdy wzrost wartości zmiennej niezależnej pociąga za sobą spadek wartości zmiennej zależnej, kowariancja, a wraz z nią współczynnik korelacji, przyjmuje wartości ujemne. Przy zależnościach nieliniowych zmiany zmiennej zależnej wywoływane zmianami zmiennej niezależnej są różne dla różnych obszarów zmienności tej ostatniej.
We wnioskowaniu statystycznym , dotyczącym wartości współczynnika korelacji w populacji generalnej, ograniczymy się do weryfikacji jednego typu hipotezy statystycznej co do wartości tego współczynnika, mianowicie, że przyjmuje on wartość zero.

Współczynnik korelacji rang Spearmana

Przy badaniu cech niemierzalnych nie można, z oczywistych powodów, wykorzystać bezpośrednio omówionych wyżej miar zależności. W przypadku jednak, gdy badane cechy niemierzalne mają charakter porządkowy, możliwe jest nadanie wariantom cech rang wartości umownych, którymi są numery miejsc zajmowanych przez obserwacje w uporządkowanym ciągu.
Badanie zależności między cechami niemierzalnymi może polegać wtedy na badaniu korelacji między rangami przyporządkowanymi wariantom tych cech, tzn. na badaniu stopnia odpowiedniości między rangami.

Odpowiednie postępowanie, prowadzące do określenia tzw. współczynnika korelacji rang, zaproponował w 1906r. C. Spearman. Oznaczamy przez ai, rangę przyporządkowane i-tej obserwacji z pierwszego ciągu, przez bi – rangę przyporządkowaną i-tej jednostce w drugim ciągu oraz przez di – różnicę między rangami przyporządkowanymi i-tej jednostce w obu ciągach tzn.:di=ai-bi. Współczynnik korelacji rang Spearmana jest zdefiniowany wtedy jako zwykły współczynnik korelacji r Pearsona dla rang ai i bi. Jeśli w zbiorze danych nie ma obserwacji powiązanych, tzn. podzbioru obserwacji, których nie można uporządkować, wzór na współczynnik korelacji rang można przedstawić w postaci:

    \[r_{s}=1-\frac{6\sum_{n}^{i=1}d^{2}_{i}}{n(n^{2}-1)}\]

Współczynnik rs przyjmuje wartości z przedziału <-1,1>. Współczynnik rs=1, gdy występuje idealna zgodność rang w obu ciągach; rs= -1, gdy występuje maksymalna niezgodność rang, tzn. najwyższej randze w jednym ciągu odpowiada najniższa ranga w drugim itd., oraz rs=0, gdy rangi w obu ciągach są niezależne, tzn. występuje czysto losowe kojarzenie się rang w obu ciągach.

Wspolczynniki korelacji - napis