Analiza wariancji – zadania
W dużym stołecznym liceum badano wyniki egzaminu dojrzałości. Uczniów podzielono m.in. na 5 grup według dochodów na osobę w rodzinie, a następnie wylosowano po 9 maturzystów z każdej grupy. Ustalono, że suma kwadratów odchyleń międzygrupowych uzyskanych wyników wynosi 280,4, wewnątrzgrupowych zaś – 1624,8. Zapisać wyniki analizy wariancji w tabeli. Czy przeciętne wyniki na egzaminie dojrzałości różnią się istotnie pomiędzy uczniami o różnym statusie materialnym ? Przyjąć α=0,01
Brak podstaw do odrzucenia H0. Status nie ma wpływu na wyniki.
W jednej z sal pewnego kasyna stoi 10 automatów. Przypuszcza się, że na dochody (w tyś. USD) uzyskiwane przez właściciela z automatów wpływa m.in. liczba grających i to, jak długo korzystają oni z automatów. Zorganizowano eksperyment: w pewną sobotę przy automatach rozpylano przyjemne, bardzo delikatne aromaty cytrusowe, w inną sobotę – aromaty z nutą lawendy. Zbadano również dochody w sobotę, kiedy “sztuczek” nie stosowano. Uzupełnić dane w tabeli i odpowiedzieć na pytanie, czy zapach może wpływać (poprzez liczbę grających i czas ich korzystania z automatu) na przeciętne dochody uzyskiwane przez właściciela z automatów do gry? Przyjąć α=0,05. czy zmiana poziomu istotności spowoduje zmianę decyzji ?
Numer automatu | Cytrynowy(x1) | Lawendowy(x2) | Naturalny(x2) | (X1i -śrX1)2 | (X2i-śrX2)2 | (X3i -śrX3)2 |
---|---|---|---|---|---|---|
1 | 5,5 | 7,9 | 5,3 | 4,41 | 0,36 | |
2 | 7,8 | 5,1 | 4,4 | 0,49 | 0,09 | |
3 | 6,1 | 4,8 | 3,9 | 1 | 0,64 | |
4 | 4,9 | 6,0 | 4,1 | 0,04 | 0,36 | |
5 | 5,4 | 5,7 | 5,0 | 0,01 | 0,09 | |
6 | 6,3 | 6,1 | 5,1 | 0,09 | 0,16 | |
7 | 7,5 | 4,7 | 4,3 | 1,21 | 0,16 | |
8 | 5,5 | 5,8 | 4,8 | 0,00 | 0,01 | |
9 | 5,0 | 7,0 | 5,5 | 1,44 | 0,64 | |
10 | 6,0 | 4,9 | 4,6 | 0,81 | 0,01 | |
Razem | 60,0 | 58,0 | 47,0 | 9,50 | 2,52 |
[FMP]
Odrzucamy H0 na rzecz H1 – rozpylony zapach ma wpływ na dochody z automatów. Poziom istotności nie wpłynie na zmianę decyzji.
[/FMP]
Dla sprawdzenia, czy koszt (w zł) wizyty w prywatnym gabinecie lekarza specjalisty różni się w zależności od wielkości miasta zebrano dane dla losowo wybranych gabinetów (po 6 w każdym ośrodku) w trzech miastach różnej wielkości:
miasto duże:120, 140, 110, 100, 130, 120
miasto średnie:90, 75, 70, 80, 85, 80
miasto małe:65, 70, 75, 80, 70, 60
Przyjmując poziom istotności 0,01, sprawdzić, czy przeciętny koszt wizyty u lekarza specjalisty jest jednakowy w miastach o różnej wielkości
[FMP]
Odrzucamy H0 na rzecz H1. Koszty wizyty różnią się w zależności od wielkości miasta
[/FMP]
W pewnej sieci sklepów kosmetycznych zrealizowano badanie, które miało przesądzić, jaki rodzaj promocji najbardziej przekonuje klientów. Poniżej zaprezentowano trzy propozycje promocji (A,B,C):
A.hasło “Kup szampon za 20zł, a odżywkę dostaniesz gratis”
B. zdjęcie obu produktów z przekreśloną sumą 50zł i napis “Dziś 60% taniej”
C. hasło “Kup szampon i odżywkę za 20zł”
W 18 losowo wybranych sklepach o podobnej wielkości i liczbie klientów w ustalonym dniu proponowano klientom trzy wyżej wymienione rodzaje promocji (po 6 sklepów dla każdego rodzaju). Oto jak przedstawiała się sprzedaż (w szt.) tego dnia:
Numer sklepu | Promocja A (X1) | Promocja B (X2) | Promocja C (X3) | (X1i-śrX1) | (X2i-śrX2) | (X3i-śrX3) |
---|---|---|---|---|---|---|
1 | 29 | 31 | 40 | 1 | 9 | 0 |
2 | 26 | 28 | 35 | 16 | 0 | 25 |
3 | 31 | 25 | 42 | 1 | 9 | 4 |
4 | 27 | 26 | 38 | 9 | 4 | 4 |
5 | 34 | 30 | 50 | |||
6 | 33 | 28 | 35 | 9 | 0 | 25 |
Razem | 180 | 168 | 240 |
Uzupełnić brakujące obliczenia. Czy wyniki sprzedaży potwierdzają tezę, że każdy z trzech rodzajów promocji jest jednakowo skuteczny, czy też przeciwnie – średnia sprzedaż różni się istotnie w zależności od typu promocji ? Przyjąć α=0,05
[FMP]
Odrzucamy H0 na rzecz H1 – Hasło promocji ma wpływ na zysk ze sprzedaży.
[/FMP]
Badając wpływ poziomu edukacji na czas (w godz.) poświęcony na oglądanie telewizji, dla losowo wybranych osób z poszczególnych grup wykształcenia otrzymano wyniki:
Poziom wykształcenia | Przeciętny czas oglądania TV | Liczba osób |
---|---|---|
Podstawowe | 3,5 | 21 |
Zawodowe | 3,6 | 16 |
Średnie | 3,4 | 15 |
Wyższe | 3,3 | 18 |
Na podstawie przedstawionych danych sprawdzić, czy średni czas poświęcony na oglądanie telewizji jest w istotny sposób różnicowany poprzez poziom wykształcenia, wiedząc, że suma kwadratów odchyleń wewnątrzgrupowych wynosi 13,2. Przyjąć α=0,025
[FMP]
Brak podstaw do odrzucenia hipotezy
[/FMP]
Zbadać (przy poziomie istotności 0,01), czy przeciętne ceny m2 mieszkań (w tyś. zł) są jednakowe w trzech dzielnicach pewnego miasta, jeśli losowa próba mieszkań dostarczyła następujących informacji:
Dzielnica | Liczba mieszkań | Przeciętna cena m2 | Suma kwadratów odchyleń od przeciętnej ceny w danej dzielnicy |
---|---|---|---|
Centrum | 13 | 12,0 | 45,6 |
Południe | 10 | 10,0 | 32,4 |
Północ | 12 | 9,0 | 46,2 |
[FMP]
Odrzucamy H0 na rzecz H1. Przeciętne ceny m2 nie są jednakowe
[/FMP]
Losowo wybranym studentom trzech uczelni o profilu technicznym (15 osób), ekonomicznym (15 osób) i artystycznym (20 osób), którzy nigdy wcześniej nie zetknęli się z sudoku, zmierzono czas (w min) rozwiązywania tej japońskiej łamigłówki. Zadanie, ze względu na fakt, że miały je rozwiązywać osoby początkujące o zupełnie różnych uzdolnieniach, było proste i jednakowe dla wszystkich. Czy zamieszczone poniżej wyniki badania stanowią przesłankę do twierdzenia, że średni czas rozwiązywania sudoku różnił się istotnie, na poziomie istotności 0,05, pomiędzy grupami studentów z różnych kierunków studiów?
Studenci | Średni czas rozwiązywania sudoku | Nieobciążona wariancja czasu rozwiązywania |
---|---|---|
Inżynierowie | 10 | 42,4 |
Ekonomiści | 16 | 60,2 |
Artyści | 20 | 44,5 |
[FMP]
Rozwiązanie zadania pojawi się w najbliższych dniach.
[/FMP]
Maturzystka Ewa decydując się na na wybór wyższej uczelni, jako jedno z kryteriów postanowiła wziąć pod uwagę okres (Y – w miesiącach), jaki upływa od ukończenia studiów na danej uczelni do podjęcia pierwszej pracy. Losowe próby 20 absolwentów uczelni A oraz po 40 absolwentów uczelni B i C dały wyniki:
Charakterystyki rozkładu | A | B | C |
---|---|---|---|
Średnia arytmetyczna | 6,0 | 3,4 | 4,1 |
SKW | 42,75 | 19,11 | 31,59 |
Czy średni czas poszukiwania pracy różni się istotnie w zależności od ukończenia którejś z trzech uczelni ? Przyjąć poziom istotności 0,01
[FMP]
Rozwiązanie zadania pojawi się w najbliższych dniach.
[/FMP]
Pewien inwestor giełdowy kupuje wyłącznie akcje trzech spółek należących do sektorów: IT, farmaceutycznego(F), elektromechanicznego(E). Aktualnie rozważa zmianę proporcji swoich inwestycji, ale ciągle w ramach tych trzech spółek. Decyzję uzależnia od tego, czy przeciętne dzienne stopy przychodu z akcji tych spółek w ostatnim kwartale różniły się istotnie między sobą. Dla losowo wybranych dni z ostatniego kwartału inwestor zebrał dane dotyczące stopy przychodu spółek i przeprowadził analizę wariancji:
Źródło zmienności | Suma kwadratów ochyleń | Stopnie swobody | Średni kwadrat odchyleń |
---|---|---|---|
Zróżnicowanie międzygrupowe | |||
Zróżnicowanie wewnątrzgrupowe | 2,88 | 18 | |
Ogółem | 4,96 |
a) Ile obserwacji wykorzystał do badania inwestor i w ciągu ilu dni je zebrał?
b) Uzupełnić tabelę i sprawdzić hipotezę o jednakowych przeciętnych dziennych stopach przychodu badanych spółek w ostatnim kwartale. Przyjąć poziom istotności 0,01
c) Dodatkowo inwestor przeprowadził procedurę najmniejszej istotnej różnicy (NIR). Wykazała ona jednorodność wyników dla dwóch spółek (F i E) z punktu widzenia stopy przychodu oraz statystycznie istotne różnice między przeciętnymi stopami przychodu tych spółek i spółki IT (przeciętna stopa przychodu spółki IT była znacząco wyższa niż pozostałych). Jakie wnioski płyną dla inwestora z wyników procedury NIR?
[FMP]
Rozwiązanie zadania pojawi się w najbliższych dniach.
[/FMP]
Analiza wariancji
Metoda statystyczna zwana analizą wariancji została opracowana i upowszechniona w latach dwudziestych XX wieku przez R.A. Fishera. Wprowadzono tę metodę najpierw w doświadczalnictwie rolnym, później znalazła ona zastosowanie w wielu innych dziedzinach badań/
Ogólnie mówiąc, analiza wariancji jest techniką badania wyników(obserwacji), które zależą od jednego lub więcej czynników działających równocześnie. Za pomocą tej techniki określa się, czy wyodrębnione czynniki wywierają wpływ na obserwowane wyniki. Zmienną, która takiej obserwacji podlega, nazywamy zmienną objaśnianą.
Nawiązując do źródeł pochodzenia analizy wariancji, jako przykład możemy rozpatrzeć sytuację, gdy obserwacji podlega mleczność krów, karmionych trzema rodzajami paszy(A, B, C) albo mleczność krów dwóch różnych ras (R1, R2). Mleczność jako zmienna podlegająca obserwacji jest tu zmienną objaśnianą, a czynnikiem, który może różnicować jej wartość, jest w pierwszym przypadku rodzaj paszy, a w drugim – rasa krowy.
Jeżeli podzielimy badaną zbiorowość na trzy grupy – A, B i C, w zależności od tego, jaką paszą są karmione, znaczenie wpływu rodzaju paszy na mleczność krów może być zbadane przez porównanie średnich mleczności w każdej grupie. Jeśli te średnie różnią się między sobą istotnie, to można z tego wnioskować, że rozpatrywany czynnik(pasza) wpływa na zmienną objaśnianą. Z takiego sposobu myślenia wynika istota analizy wariancji: jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji.
Zauważmy, że w omawianym schemacie doświadczenia zmienna objaśniana musi być zmienną mierzalną, podczas gdy wyróżniony czynnik może mieć zarówno jakościowy, jak i ilościowy charakter. W powyższym przykładzie oba czynniki(rodzaj paszy, rasa krowy) są jakościowe. Wartości czy też warianty czynnika nazywają się poziomami. Poziom oznacza zarówno jakościową charakterystykę czynnika(w przypadku czynnika niemierzalnego), jak i konkretną wartość liczbową czynnika o mierzalnym charakterze.
W naszym przykładzie czynnik “rodzaj paszy” ma 3 poziomy: A, B i C, wynik “rasa krowy” ma 2 poziomy: R1 i R2. Oczywiście w modelu analizy wariancji czynnik klasyfikacyjny musi mieć co najmniej 2 poziomy.
W literaturze przedmiotu czynnik nazywany jest zamiennie zabiegiem – co ma związek z rolniczym charakterem eksperymentów, których efekty oceniano w pierwotnych zastosowaniach analizy wariancji.
Zwróćmy również uwagę na to, że schemat doświadczenia, o którym mówimy, może być sformułowany w nieco inny sposób. Mianowicie, załóżmy, że mamy pewien zbiór obserwacji na zmiennej objaśnianej i że te obserwacje klasyfikujemy według pewnego kryterium, tworząc kilka grup(co najmniej dwie). Wtedy, poprzez ocenę różnic między średnimi w grupach, stosując analizę wariancji, można ocenić, czy zastosowana klasyfikacja jest właściwa w tym sensie, że przyjęte kryterium podziału dało w efekcie grupy w miarę jednolite wewnątrz i równocześnie różniące się dostatecznie wyraźnie między sobą.
Jeżeli w badaniu uwzględnia się jeden czynnik, to mamy do czynienia z analizą wariancji z klasyfikacją pojedynczą(jednokierunkową analizą wariancji). Możliwe jest także badanie wpływu dwóch(lub więcej) czynników na zmienną objaśnianą. Mówimy wtedy o analizie wariancji z klasyfikacją podwójną(dwukierunkowej analizie wariancji) lub wielowymiarowej(wielokierunkowej).