Analiza wariancji – zadania

W dużym stołecznym liceum badano wyniki egzaminu dojrzałości. Uczniów podzielono m.in. na 5 grup według dochodów na osobę w rodzinie, a następnie wylosowano po 9 maturzystów z każdej grupy. Ustalono, że suma kwadratów odchyleń międzygrupowych uzyskanych wyników wynosi 280,4, wewnątrzgrupowych zaś – 1624,8. Zapisać wyniki analizy wariancji w tabeli. Czy przeciętne wyniki na egzaminie dojrzałości różnią się istotnie pomiędzy uczniami o różnym statusie materialnym ? Przyjąć α=0,01

    \[\alpha =0,01\]

    \[r =5\]

    \[n_{1}=n_{2}=n_{3}=n_{4}=n_{5}=9\]

    \[n=45\]

    \[SKM=280,4\]

    \[SKW=1624,8\]

    \[H_{0}:m_{1}=m_{2}=m_{3}=m_{4}=m_{5}(status\; materialny\; nie\; ma\; wplywu\; na\; wyniki)\]

    \[H_{1}:m_{i}\neq m_{j}(status\; materialny \; ma\; wplyw\; na\; wyniki)\]

    \[F=\frac{\frac{280,4}{4}}{\frac{1624,8}{40}}=\frac{70,1}{40,62}=1,73\]

    \[F_{0,01;4;40}=3,83\]

Brak podstaw do odrzucenia H0. Status nie ma wpływu na wyniki.

W jednej z sal pewnego kasyna stoi 10 automatów. Przypuszcza się, że na dochody (w tyś. USD) uzyskiwane przez właściciela z automatów wpływa m.in. liczba grających i to, jak długo korzystają oni z automatów. Zorganizowano eksperyment: w pewną sobotę przy automatach rozpylano przyjemne, bardzo delikatne aromaty cytrusowe, w inną sobotę – aromaty z nutą lawendy. Zbadano również dochody w sobotę, kiedy “sztuczek” nie stosowano. Uzupełnić dane w tabeli i odpowiedzieć na pytanie, czy zapach może wpływać (poprzez liczbę grających i czas ich korzystania z automatu) na przeciętne dochody uzyskiwane przez właściciela z automatów do gry? Przyjąć α=0,05. czy zmiana poziomu istotności spowoduje zmianę decyzji ?

Numer automatuCytrynowy(x1)Lawendowy(x2)Naturalny(x2)(X1i -śrX1)2(X2i-śrX2)2(X3i -śrX3)2
15,57,95,34,410,36
27,85,14,40,490,09
36,14,83,910,64
44,96,04,10,040,36
55,45,75,00,010,09
66,36,15,10,090,16
77,54,74,31,210,16
85,55,84,80,000,01
95,07,05,51,440,64
106,04,94,60,810,01
Razem60,058,047,09,502,52

[FMP]

    \[H_{0}:m_{1}=m_{2}=m_{3}(rozpylone\; aromaty\; nie\; maja\; wplywu\; na\; dochody)\]

    \[H_{1}:m_{i}\neq m_{j}(rozpylone\; aromaty\; maja\; wplyw\; na\; dochody\]

    \[\overline{x_{1}}=60:10=6\]

    \[\overline{x_{2}}=58:10=5,8\]

    \[\overline{x_{3}}=47:10=4,7\]

    \[(x_{1i}-\overline{x_{1}})^{2}:\]

    \[\boldsymbol{1:}0,25\]

    \[\boldsymbol{2:}3,24\]

    \[\boldsymbol{3:}0,01\]

    \[\boldsymbol{4:}1,21\]

    \[\boldsymbol{5:}0,36\]

    \[\boldsymbol{6:}0,09\]

    \[\boldsymbol{7:}2,25\]

    \[\boldsymbol{8:}0,25\]

    \[\boldsymbol{9:}1\]

    \[\boldsymbol{10:}0\]

    \[Razem:8,66\]

    \[SKM:10*(6-5,5)^{2}+10(5,8-5,5)^{2}+10(4,7-5,5)^{2}=9,8\]

    \[SKW:8,66+9,5+2,52=20,68\]

    \[F=\frac{\frac{9,8}{2}}{\frac{20,68}{27}}=6,4\]

    \[F=\frac{\frac{SKM}{r-1}}{\frac{SKW}{n-r}}=\frac{\frac{9,8}{2}}{\frac{20,68}{27}}=6,4\]

    \[F_{0,05;2;27}=3,35\]

Odrzucamy H0 na rzecz H1 – rozpylony zapach ma wpływ na dochody z automatów. Poziom istotności nie wpłynie na zmianę decyzji.

[/FMP]

Dla sprawdzenia, czy koszt (w zł) wizyty w prywatnym gabinecie lekarza specjalisty różni się w zależności od wielkości miasta zebrano dane dla losowo wybranych gabinetów (po 6 w każdym ośrodku) w trzech miastach różnej wielkości:
miasto duże:120, 140, 110, 100, 130, 120
miasto średnie:90, 75, 70, 80, 85, 80
miasto małe:65, 70, 75, 80, 70, 60
Przyjmując poziom istotności 0,01, sprawdzić, czy przeciętny koszt wizyty u lekarza specjalisty jest jednakowy w miastach o różnej wielkości

[FMP]

    \[\alpha =0,01\]

    \[n_{1}=n_{2}=n_{3}=6\]

    \[n=18\]

    \[r=3\]

    \[H_{0}:m_{1}=m_{2}=m_{3}(koszt\; wizyty\; nie\; rozni\; sie\; w\; zaleznosci\; od\; wielkosci\; miasta)\]

    \[H_{1}:m_{i}\neq m_{j} \; dla\; co\; najmniej\; jednej\; pary\; i,j\; koszty\; wizyty\; roznia\; sie\; w\; zaleznosci\; od\; wielkosci\; miasta\]

    \[\overline{Y}=(120+140+110+100+130+120+90+75+70+80+85+80+65+70+75+80+70+60)*\frac{1}{18}=90\]

    \[\overline{Y_{1}}=(120+140+110+100+130+120):6=120\]

    \[\overline{Y_{2}}=(90+75+70+80+85+80):6=80\]

    \[\overline{Y_{3}}=(65+70+75+80+70+60):6=70\]

    \[SKW=(120-120)^{2}+(140-120)^{2}+(110-120)^{2}+(100-120)^{2}+(130-120)^{2}+(120-120)^{2}+(90-90)^{2}+(75-90)^{2}+(70-90)^{2}+(80-90)^{2}+(85-90)^{2}+(80-90)^{2}+(65-70)^{2}+(70-70)^{2}+(75-70)^{2}+(80-70)^{2}+(70-70)^{2}+(60-70)^{2}=1500\]

    \[s_{w}^{2}=\frac{1500}{15}=100\]

    \[s_{m}^{2}=\frac{6(120-90)^{2}+6(80-90)^{2}+6(70-90)^{2}}{2}=4200\]

    \[F_{obl}=\frac{4200}{100}=42\]

    \[F_{0,01;2;15}=6,36\]

Odrzucamy H0 na rzecz H1. Koszty wizyty różnią się w zależności od wielkości miasta

[/FMP]

W pewnej sieci sklepów kosmetycznych zrealizowano badanie, które miało przesądzić, jaki rodzaj promocji najbardziej przekonuje klientów. Poniżej zaprezentowano trzy propozycje promocji (A,B,C):

A.hasło “Kup szampon za 20zł, a odżywkę dostaniesz gratis”

B. zdjęcie obu produktów z przekreśloną sumą 50zł i napis “Dziś 60% taniej”

C. hasło “Kup szampon i odżywkę za 20zł”

W 18 losowo wybranych sklepach o podobnej wielkości i liczbie klientów w ustalonym dniu proponowano klientom trzy wyżej wymienione rodzaje promocji (po 6 sklepów dla każdego rodzaju). Oto jak przedstawiała się sprzedaż (w szt.) tego dnia:

Numer sklepuPromocja A (X1)Promocja B (X2)Promocja C (X3)(X1i-śrX1)(X2i-śrX2)(X3i-śrX3)
1293140190
226283516025
3312542194
4272638944
5343050
63328359025
Razem180168240

Uzupełnić brakujące obliczenia. Czy wyniki sprzedaży potwierdzają tezę, że każdy z trzech rodzajów promocji jest jednakowo skuteczny, czy też przeciwnie – średnia sprzedaż różni się istotnie w zależności od typu promocji ? Przyjąć α=0,05

[FMP]

    \[H_{0}:m_{1}=m_{2}=m_{3}(haslo\; promocji\; nie\; ma\; wplywu\; na\; wyniki)\]

    \[H_{1}:m_{i}\neq m_{j}(haslo\; promocji \; ma\; wplyw\; na\; wyniki)\]

    \[\overline{x_{A}}=180:6=30\]

    \[\overline{x_{B}}=168:6=28\]

    \[\overline{x_{C}}=240:6=40\]

    \[Brakujace:\]

    \[(34-30)^{2}=16\]

    \[(30-28)^{2}=4\]

    \[(50-40)^{2}=100\]

    \[\sum (x_{1i}-\overline{x}_{1})^{2}=1+16+1+9+16+9=52\]

    \[\sum (x_{2i}-\overline{x}_{2})^{2}=9+9+4+4=26\]

    \[\sum (x_{3i}-\overline{x}_{3})^{2}=25+4+4+100+25=158\]

    \[SKW=52+26+158=236\]

    \[\overline{Y}=\frac{1}{18}(180+168+240=32,66)\]

    \[SKM=6*(30-32,7)^{2}+6*(28-32,7)^{2}+6*(40-32,7)^{2}=43,74+132,54+319,74=496,02\]

    \[F=\frac{\frac{496,02}{2}}{\frac{236}{15}}=\frac{248,01}{15,73}=15,77\]

    \[F_{0,05;2;15}=3,68\]

Odrzucamy H0 na rzecz H1 – Hasło promocji ma wpływ na zysk ze sprzedaży.

[/FMP]

Badając wpływ poziomu edukacji na czas (w godz.) poświęcony na oglądanie telewizji, dla losowo wybranych osób z poszczególnych grup wykształcenia otrzymano wyniki:

Poziom wykształceniaPrzeciętny czas oglądania TVLiczba osób
Podstawowe3,521
Zawodowe3,616
Średnie3,415
Wyższe3,318

Na podstawie przedstawionych danych sprawdzić, czy średni czas poświęcony na oglądanie telewizji jest w istotny sposób różnicowany poprzez poziom wykształcenia, wiedząc, że suma kwadratów odchyleń wewnątrzgrupowych wynosi 13,2. Przyjąć α=0,025

[FMP]

    \[H_{0}:m_{1}=m_{2}=m_{3}=m_{4}\; (wyksztalcenie\; nie\; ma\; wplywu\; na\;przecietny\; czas\; ogladania\; TV)\]

    \[H_{1}:m_{i}\neq m_{j}\; (wyksztalcenie\; ma\; wplyw\; na\;przecietny\; czas\; ogladania\; TV)\]

    \[SKW=73,2\]

    \[\overline{Y}=\frac{(21*3,5+16*3,6+15*3,4+18*3,3)}{70}=\frac{73,5+57,6+51+59,4}{70}=3,45\]

    \[SKM=(3,5-3,45)^{2}*21+(3,6-3,45)^{2}*16+(3,4-3,45)^{2}*15+(3,3-3,45)^{2}*18=0,0525+0,36+0,0375+0,0405=0,855\]

    \[F=\frac{\frac{0,855}{3}}{\frac{13,2}{66}}=\frac{0,285}{0,2}=1,425\]

    \[F_{0,025;3;66}\approx 3,34\]

Brak podstaw do odrzucenia hipotezy

[/FMP]

Zbadać (przy poziomie istotności 0,01), czy przeciętne ceny m2 mieszkań (w tyś. zł) są jednakowe w trzech dzielnicach pewnego miasta, jeśli losowa próba mieszkań dostarczyła następujących informacji:

DzielnicaLiczba mieszkańPrzeciętna cena m2Suma kwadratów odchyleń od przeciętnej ceny w danej dzielnicy
Centrum1312,045,6
Południe1010,032,4
Północ129,046,2

[FMP]

    \[SKW=45,6+32,4+46,2=124,2\]

    \[\overline{Y}=\frac{(13*12+10*10+12*9)}{35}=\frac{(156+100+108)}{35}=\frac{364}{35}=10,4\]

    \[SKM=(12-10,4)^{2}*13+(10-10,4)^{2}*10+(9-10,4)^{2}*12=33,28+1,6+23,52=58,4\]

    \[H_{0}:m_{1}=m_{2}=m_{3}(przecietne\; ceny\; m^{2} \; mieszkan\; sa\; jednakowe)\]

    \[H_{1}:m_{i}\neq m_{j}(przecietne\; ceny\; m^{2} \; mieszkan\;nie\; sa\; jednakowe)\]

    \[F=\frac{\frac{56,4}{2}}{\frac{124,2}{32}}=\frac{29,2}{3,88}=7,53\]

    \[F_{0,01;2;32}=5,39\]

Odrzucamy H0 na rzecz H1. Przeciętne ceny m2 nie są jednakowe

[/FMP]

Losowo wybranym studentom trzech uczelni o profilu technicznym (15 osób), ekonomicznym (15 osób) i artystycznym (20 osób), którzy nigdy wcześniej nie zetknęli się z sudoku, zmierzono czas (w min) rozwiązywania tej japońskiej łamigłówki. Zadanie, ze względu na fakt, że miały je rozwiązywać osoby początkujące o zupełnie różnych uzdolnieniach, było proste i jednakowe dla wszystkich. Czy zamieszczone poniżej wyniki badania stanowią przesłankę do twierdzenia, że średni czas rozwiązywania sudoku różnił się istotnie, na poziomie istotności 0,05, pomiędzy grupami studentów z różnych kierunków studiów?

StudenciŚredni czas rozwiązywania sudokuNieobciążona wariancja czasu rozwiązywania
Inżynierowie1042,4
Ekonomiści1660,2
Artyści2044,5

[FMP]

Rozwiązanie zadania pojawi się w najbliższych dniach.

[/FMP]

Maturzystka Ewa decydując się na na wybór wyższej uczelni, jako jedno z kryteriów postanowiła wziąć pod uwagę okres (Y – w miesiącach), jaki upływa od ukończenia studiów na danej uczelni do podjęcia pierwszej pracy. Losowe próby 20 absolwentów uczelni A oraz po 40 absolwentów uczelni B i C dały wyniki:

Charakterystyki rozkładuABC
Średnia arytmetyczna6,03,44,1
SKW42,7519,1131,59

Czy średni czas poszukiwania pracy różni się istotnie w zależności od ukończenia którejś z trzech uczelni ? Przyjąć poziom istotności 0,01

[FMP]

Rozwiązanie zadania pojawi się w najbliższych dniach.

[/FMP]

Pewien inwestor giełdowy kupuje wyłącznie akcje trzech spółek należących do sektorów: IT, farmaceutycznego(F), elektromechanicznego(E). Aktualnie rozważa zmianę proporcji swoich inwestycji, ale ciągle w ramach tych trzech spółek. Decyzję uzależnia od tego, czy przeciętne dzienne stopy przychodu z akcji tych spółek w ostatnim kwartale różniły się istotnie między sobą. Dla losowo wybranych dni z ostatniego kwartału inwestor zebrał dane dotyczące stopy przychodu spółek i przeprowadził analizę wariancji:

Źródło zmiennościSuma kwadratów ochyleńStopnie swobodyŚredni kwadrat odchyleń
Zróżnicowanie międzygrupowe
Zróżnicowanie wewnątrzgrupowe2,8818
Ogółem4,96

a) Ile obserwacji wykorzystał do badania inwestor i w ciągu ilu dni je zebrał?

b) Uzupełnić tabelę i sprawdzić hipotezę o jednakowych przeciętnych dziennych stopach przychodu badanych spółek w ostatnim kwartale. Przyjąć poziom istotności 0,01

c) Dodatkowo inwestor przeprowadził procedurę najmniejszej istotnej różnicy (NIR). Wykazała ona jednorodność wyników dla dwóch spółek (F i E) z punktu widzenia stopy przychodu oraz statystycznie istotne różnice między przeciętnymi stopami przychodu tych spółek i spółki IT (przeciętna stopa przychodu spółki IT była znacząco wyższa niż pozostałych). Jakie wnioski płyną dla inwestora z wyników procedury NIR?

[FMP]

Rozwiązanie zadania pojawi się w najbliższych dniach.

[/FMP]

Analiza wariancji

Metoda statystyczna zwana analizą wariancji została opracowana i upowszechniona w latach dwudziestych XX wieku przez R.A. Fishera. Wprowadzono tę metodę najpierw w doświadczalnictwie rolnym, później znalazła ona zastosowanie w wielu innych dziedzinach badań/
Ogólnie mówiąc, analiza wariancji jest techniką badania wyników(obserwacji), które zależą od jednego lub więcej czynników działających równocześnie. Za pomocą tej techniki określa się, czy wyodrębnione czynniki wywierają wpływ na obserwowane wyniki. Zmienną, która takiej obserwacji podlega, nazywamy zmienną objaśnianą.

Nawiązując do źródeł pochodzenia analizy wariancji, jako przykład możemy rozpatrzeć sytuację, gdy obserwacji podlega mleczność krów, karmionych trzema rodzajami paszy(A, B, C) albo mleczność krów dwóch różnych ras (R1, R2). Mleczność jako zmienna podlegająca obserwacji jest tu zmienną objaśnianą, a czynnikiem, który może różnicować jej wartość, jest w pierwszym przypadku rodzaj paszy, a w drugim – rasa krowy.
Jeżeli podzielimy badaną zbiorowość na trzy grupy – A, B i C, w zależności od tego, jaką paszą są karmione, znaczenie wpływu rodzaju paszy na mleczność krów może być zbadane przez porównanie średnich mleczności w każdej grupie. Jeśli te średnie różnią się między sobą istotnie, to można z tego wnioskować, że rozpatrywany czynnik(pasza) wpływa na zmienną objaśnianą. Z takiego sposobu myślenia wynika istota analizy wariancji: jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji.

Zauważmy, że w omawianym schemacie doświadczenia zmienna objaśniana musi być zmienną mierzalną, podczas gdy wyróżniony czynnik może mieć zarówno jakościowy, jak i ilościowy charakter. W powyższym przykładzie oba czynniki(rodzaj paszy, rasa krowy) są jakościowe. Wartości czy też warianty czynnika nazywają się poziomami. Poziom oznacza zarówno jakościową charakterystykę czynnika(w przypadku czynnika niemierzalnego), jak i konkretną wartość liczbową czynnika o mierzalnym charakterze.
W naszym przykładzie czynnik “rodzaj paszy” ma 3 poziomy: A, B i C, wynik “rasa krowy” ma 2 poziomy: R1 i R2. Oczywiście w modelu analizy wariancji czynnik klasyfikacyjny musi mieć co najmniej 2 poziomy.
W literaturze przedmiotu czynnik nazywany jest zamiennie zabiegiem – co ma związek z rolniczym charakterem eksperymentów, których efekty oceniano w pierwotnych zastosowaniach analizy wariancji.
Zwróćmy również uwagę na to, że schemat doświadczenia, o którym mówimy, może być sformułowany w nieco inny sposób. Mianowicie, załóżmy, że mamy pewien zbiór obserwacji na zmiennej objaśnianej i że te obserwacje klasyfikujemy według pewnego kryterium, tworząc kilka grup(co najmniej dwie). Wtedy, poprzez ocenę różnic między średnimi w grupach, stosując analizę wariancji, można ocenić, czy zastosowana klasyfikacja jest właściwa w tym sensie, że przyjęte kryterium podziału dało w efekcie grupy w miarę jednolite wewnątrz i równocześnie różniące się dostatecznie wyraźnie między sobą.
Jeżeli w badaniu uwzględnia się jeden czynnik, to mamy do czynienia z analizą wariancji z klasyfikacją pojedynczą(jednokierunkową analizą wariancji). Możliwe jest także badanie wpływu dwóch(lub więcej) czynników na zmienną objaśnianą. Mówimy wtedy o analizie wariancji z klasyfikacją podwójną(dwukierunkowej analizie wariancji) lub wielowymiarowej(wielokierunkowej).