Przedziały ufności i testowanie hipotez – zadania

Aby zobaczyć rozwiązania zadań 2-11 należy wykupić abonament

W 25- elementowej próbie prostej, złożonej z drzew losowo wybranych z lasu, otrzymano:

    \[\overline{X} = 37.3cm\]

    \[s^{2} =13.5 cm^{2}\]

Zakładamy, że rozkład średnicy drzew w tym lesie jest w przybliżeniu normalny. Wyznaczyć 96%-ową realizację przedziału ufności dla przeciętnej liczby drzew w tym lesie.

Zwróćmy uwagę na to, że n < 30 a wariancja została otrzymana(wyliczona) z próby 25 elementowej więc skorzystamy z dystrybuanty rozkładu t-studenta.

1α=0.96
α=0.04

    \[\large t_{0.04, 24} =2.492\]

Teraz wystarczy podstawić do wzoru, czyli

    \[( 37.3 - 2.492\cdot \frac{\sqrt{13.5}}{\sqrt{25}}, 37.3 + 2.492\cdot \frac{\sqrt{13.5}}{\sqrt{25}} )\]

    \[( 37.3 - 1.83, 37.3 + 1.83 ) = ( 35.47 , 39.13 )\]

Odp: 96% przedział ufności przeciętnej liczby drzew w tym lesie wynosi (35.47 , 39.13).

Teraz odczytujemy z tablicy rozkładu t-studenta wartość dla

Ankieter zapytał szesnastu studentów ile litrów kawy każdy z nich wypił w tygodniu poprzedzającym kolokwium z statystyki. Przedział ufności dla wartości oczekiwanej na poziomie 0.1 z pobranej próby wyniósł (2,8).
Oblicz średnią i wariancję ilości litrów wypitej kawy w tej próbie, zakładając że pochodzi z rozkładu normalnego.

Ponieważ mamy obliczyć wariancję w próbie to zakładam, że prawdziwa wariancja nie jest znana. Dodając do tego fakt małej liczebności próby n = 16 oznacza, że będziemy korzystać z rozkładu t-studenta.
Dla małej liczebności i nieznanej wariancji przedział ufności prezentuje się następująco:

    \[m \in ( \overline{X} - t_{1 -\alpha,n-1} \frac{s}{\sqrt{n}} , \overline{X} + t_{1 - \alpha,n-1} \frac{s}{\sqrt{n}} )\]

Zarówno prawy jak i lewy koniec przedziału ufności jest tak samo odległy od 

    \[\overline{X}\]

Możemy łatwo go wyliczyć, ponieważ leży on dokładnie na środku przedziału ufności.

Wynika z faktu, że do obu końców dodajemy/odejmujemy tę samą liczbę.

    \[\overline{X} = \frac{2+8}{2} = 5\]

    \[t_{\alpha,n-1} = t_{0.1,16-1} = t_{0.1,15} = 1.753\]

Skorzystamy z prawego końca przedziału ufności:

    \[2 = \overline{X} - t_{0.1,15} \frac{s}{\sqrt{16}} = 5 - 1.753 \cdot \frac{s}{4}\]

    \[1.753 \cdot \frac{s}{4} = 5-2 = 3\]

    \[0.438 \cdot s = 3\]

    \[s \approx 6.85\]

    \[s^{2} \approx 46.92\]

Odp: W tej grupie studentów średnia liczba wypitych kaw wynosi 5kaw, a wariancja 46.92 kaw2.

Średnia cena 50 losowo wybranych podręczników akademickich wyniosła 28.40 PLN. Wiadomo, ze odchylenie standardowe cen podręczników wynosi 4.75 PLN. Wyznaczyć 95% przedział ufności dla średniej ceny podręcznika akademickiego zakładając, ze rozkład cen jest rozkładem normalnym.

n = 50

    \[\overline{X} = 28.4\]

s = 4.75

    \[1 - \alpha = 0.95\]

    \[1 - \frac{\alpha}{2} = 0.975\]

Ponieważ n > 30 to skorzystamy z rozkładu normalnego do wyznaczenia przedziału ufności:

    \[m \in ( \overline{X} - u_{1 - \frac{\alpha}{2}} \frac{s}{\sqrt{n}} , \overline{X} + u_{1 - \frac{\alpha}{2}} \frac{s}{\sqrt{n}} )\]

    \[u_{0.975} = 1.96\]

    \[m \in ( 28.4 - 1.96 \cdot \frac{4.75}{\sqrt{50}} , 28.4 + 1.96 \cdot \frac{4.75}{\sqrt{50}} )\]

    \[m \in ( 28.4 - 1.32 , 28.4 + 1.32 )\]

    \[m \in ( 27.08 , 29.72 )\]

Odp: 95% przedział ufności dla średniej ceny podręcznika akademickiego wynosi (27.08 , 29.72).

W grupie 3600 losowo wybranych pasażerów warszawskiego metra 1584 osoby stwierdziły, że metro jest dla nich jedynym środkiem dojazdu do pracy. Wyznacz 90%- realizację przedziału ufności dla odsetka osób, dla których metro jest jedynym środkiem dojazdu do pracy.

m = 1584,  n = 3600,  1α=0.9

    \[\frac{m}{n} = \frac{1584}{3600} = 0.44\]

    \[1 - \frac{\alpha}{2} = 0.95\]

Teraz szukamy takiej wartości t, dla której ϕ(t)=0.95, gdzie
ϕ(t) jest dystrybuantą rozkładu normalnego dla punktu t. Czyli korzystając z tablicy rozkładu normalnego: wewnątrz tablicy szukamy wartości 0.95 i odczytujemy (po bokach) dla jakiego t ta wartość jest osiągana.

    \[u_{1 - \frac{\alpha}{2}} = u_{0.95} = 1.64\]

Teraz wystarczy podstawić do wzoru i otrzymujemy:

    \[p \in ( 0.44 - 1.64 \cdot \frac{ \sqrt{ 0.44 \cdot (1-0.44) } }{ \sqrt{3600} } , 0.44 + 1.64 \cdot \frac{ \sqrt{ 0.44 \cdot (1-0.44) } }{ \sqrt{3600} } )\]

    \[p \in ( 0.44 - 1.64\cdot \frac{ 0.5 }{ 60 } , 0.44 + 1.64\cdot \frac{ 0.5 }{ 60 } )\]

    \[p \in ( 0.44 - 0.014 , 0.44 + 0.014 )\]

W celu oszacowania jak duży jest odsetek rodzin 3 osobowych, w których kobieta pracuje zawodowo, zbadano 500 takich rodzin uzyskując wynik 180 pracujących kobiet. Przyjmując 1α=0.98  oszacować odsetek ogółu kobiet, w których kobieta pracuje zawodowo.

    \[1 - \alpha = 0.98\]

    \[1 - \frac{\alpha}{2} = 0.99\]

    \[u_{1 - \frac{\alpha}{2}} = u_{0.99} \approx 2.33\]

m = 180, n = 500

    \[\frac{m}{n} = \frac{180}{500} = 0.36\]

    \[\frac{m}{n}\cdot(1-\frac{m}{n}) = 0.36 \cdot (1-0.36) = 0.36 \cdot 0.64 \approx 0.23\]

Teraz przejdziemy do obliczenia przedziału ufności dla odsetka kobiet pracujących w rodzinach 3osobowych:

    \[p \in (\frac{m}{n} - u_{1-\frac{\alpha}{2}} \frac{\sqrt{\frac{m}{n}\cdot(1-\frac{m}{n})}}{\sqrt{n}},\frac{m}{n} + u_{1-\frac{\alpha}{2}} \frac{\sqrt{\frac{m}{n}\cdot(1-\frac{m}{n})}}{\sqrt{n}} )\]

    \[p \in (0.36 - 2.33 \cdot \frac{\sqrt{0.23}}{\sqrt{500}}, 0.36 + 2.33 \cdot \frac{\sqrt{0.23}}{\sqrt{500}} )\]

    \[p \in (0.36 - 2.33 \cdot 0.021, 0.36 + 2.33 \cdot 0.021 )\]

    \[p \in (0.36 - 0.049, 0.36 + 0.049 )\]

    \[p \in (0.311, 0.409)\]

Odp: 98% przedział ufności dla odsetka kobiet pracujących w rodzinach 3 osobowych wynosi około (0.311, 0.409).

Uwaga: „około” ponieważ podczas wyliczania przedziału ufności zaokrąglaliśmy wyniki.

Wiadomo, że rozkład wagi wśród tabliczek czekolady pochodzących od pewnego producenta ma rozkład normalny z odchyleniem standardowym wynoszącym 5g. Ile co najmniej tabliczek czekolady należy wylosować, aby na podstawie danych dotyczących ich wagi można było na poziomie ufności 0.9 oszacować przedziałowo przeciętną wagę tabliczek czekolady pochodzących od tego producenta z maksymalnym błędem wynoszącym 6g.

    \[1 - \alpha = 0.9 \rightarrow \frac{\alpha}{2} = 0.05\]

    \[u_{0.95} = 1.64\]

σ=5

d=6

    \[n \geq 1.64^{2} \cdot \frac{5^{2}}{6^{2}} = 2.6896 \cdot \frac{25}{36} \approx 1.87\]

Odp: Należy wylosować co najmniej 2 tabliczki aby maksymalny błąd wyniósł 6g.

Prowadzone są bardzo czasochłonne i cenne badania laboratoryjne. Jaka powinna być minimalna ilość n niezależnych pomiarów, aby uzyskać dokładność nieprzekraczającą 2 jednostek pomiarowych, dla oszacowania wartości przeciętnej w rozkładzie normalnym o znanej wariancji = 8 a poziomie ufności równym 0.97.

Dokładność, czyli maksymalny błąd pomiaru d = 2

    \[\sigma^{2} = 8\]

    \[1 - \alpha = 0.97\]

    \[u_{1 - \frac{\alpha}{2}} = u_{0.985} = 2.17\]

    \[n \geq u_{1 - \frac{\alpha}{2}}^{2}\frac{\sigma^{2}}{d^{2}} = 2.17^{2} \cdot \frac{8}{2^{2}} \approx 9.42\]

Wynik zaokrąglamy do najbliższej większej liczby całkowitej, czyli do 10.

Odp: Aby dokładność nie przekraczała 2 jednostek pomiarowych dla podanego rozkładu potrzebujemy co najmniej 10 pomiarów.

Wylosowano 400 osób, których zapytano o to, czy palą papierosy. Wśród ankietowanych 160 odpowiedziało twierdząco. Czy wylosowana próba jest wystarczająca do budowy przedziału ufności dla współczynnika udziału palących na poziomie ufności 95% przy maksymalnym błędzie wynoszącym 4%?

    \[1 - \alpha = 0.95\]

    \[1 - \frac{\alpha}{2} = 0.975\]

d = 0.04

Aby odpowiedzieć na to pytanie musimy wyliczyć minimalną liczebność próby potrzebą do oszacowania procentu ludzi palących. Skorzystamy ze wzoru:

    \[n \geq u_{1 - \frac{\alpha}{2}}^{2}\frac{\sigma^{2}}{d^{2}}\]

    \[u_{1 - \frac{\alpha}{2}} = u_{0.975} = 1.96\]

    \[\sigma^{2} = p(1-p)\]

gdzie p to odsetek liczby palaczy, który wynosi 

    \[p= \frac{160}{400} = 0.4\]

    \[\sigma^{2} = p(1-p) = 0.4 \cdot 0.6 = 0.24\]

    \[n \geq u_{1 - \frac{\alpha}{2}}^{2}\frac{\sigma^{2}}{d^{2}} = 1.96^{2} \cdot \frac{0.24}{0.04^{2}} = 3.84 \cdot 150 = 576\]

Ponieważ 576 > 400 to wylosowana próba nie jest wystarczająca.

Odp: Na poziomie ufności wynoszącym 95% wylosowana próba jest za mała by oszacować udział palaczy przy maksymalnym błędzie 4%.

Chcemy zbadać hipotezę, że średni czas przejazdu linii tramwajowej Y wynosi 28 minut.
W tym celu wykonaliśmy 100 pomiarów czasu przejazdu i otrzymaliśmy następujące wyniki:

    \[\overline{X} = 30, s = 10\]

Przetestuj hipotezę na trzech poziomach ufności:
a) 90%
b) 95%
c) 99%

Najpierw opiszmy hipotezy zerową i alternatywną:

H0 : μ=28

Ha : μ≠28

Ponieważ n = 100 > 30 dlatego możemy założyć normalność statystyki testowej tj.

    \[Z = \frac{ \overline{X} - \mu}{\sigma} \cdot \sqrt{n} = \frac{30 - 28}{10} \cdot \sqrt{100} = \frac{2}{10} \cdot 10 = 2\]

Dla każdego poziomu ufności policzmy punkt graniczny T:

a) ϕ(T)=0.95, czyli T =  1.64
b) ϕ(T)=0.975, czyli T =  1.96
c) ϕ(T)=0.995, czyli T =  2.58

Ponieważ zarówno 1.64 jak i 1.96 < 2 dlatego nie mamy podstaw do odrzucenia hipotezy H0 na poziomach ufności 90% i 95%.

Ponieważ 2.58 > 2 dlatego odrzucamy H0 na poziomie ufności 99%.

Norma techniczna przewiduje średnio 64 sekundy na ułożenie w kartonie 100 tabliczek czekolady. Czas trwania tej czynności jest zmienną losową o rozkładzie normalnym z odchyleniem standardowym 10 sekund. Ponieważ robotnicy często skarżyli się, że norma jest źle ustalona, dokonano pomiaru czasu trwania tej czynności u losowo wybranych 225 robotników i otrzymano, że średni czas trwania czynności jest równy 65 s.
Czy na poziomie istotności 0,07 można stwierdzić, że średni czas czynności jest większy niż norma?
Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie?

W zadaniu mamy podane, że rozkład jest normalny o odchyleniu σ=10 więc skorzystamy z rozkładu normalnego do wyznaczenia wartości granicznej (gdybyśmy nie znali σ to zrobilibyśmy tak samo, ponieważ n> 30).

Z zadania wynika, że:
H0:μ>64

HA:μ≤64

α=0.07
1α=0.93

Przy takim określeniu problemu mamy do czynienia z hipotezą jednostronną więc przy wyznaczaniu wartości granicznej skorzystamy z u1–α, a nie u1–(α/2). Wartość graniczna wynosi: u1–α=u0.93=1.48,

μ=64, m=65, σ=10 ,n=225

Teraz obliczmy statystykę testową:

    \[T = \frac{m - \mu}{\sigma} \cdot \sqrt{n} = \frac{65 - 64}{10} \cdot \sqrt{225} = \frac{1}{10} \cdot 15 = 1.5\]

Ponieważ u1–α<T to odrzucamy hipotezę zerową, czyli na podstawie przeprowadzonego testu wnioskujemy, że średni czas wykonania czynności jest większy niż przewiduje to norma.

Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie?

Nasza decyzja ulegnie zmianie gdy u1−α≥1.5, czyli gdy: 1−α≥0.93319 (wartość odczytana z tablicy rozkładu normalnego Φ(t) dla t = 1.5)

α≤0.06681

Czyli dla poziomu istotności mniejszego bądź równego 6.6681% decyzja weryfikacyjna ulegnie zmianie (wtedy nie odrzucimy hipotezy H0, czyli nie będzie podstaw by sądzić, że średni czas wykonania czynności jest większy niż przewiduje to norma).

Sprawdzano, czy poziom samooceny w badanej grupie studentów różni się od przeciętnego poziomu samooceny w ogólnej populacji studentów.
Poziom samooceny mierzony był na skali ilościowej – im wyższa wartość, tym wyższa samoocena.
Wyniki w badanej próbie: 6, 7, 7, 8, 8, 9, 9, 9, 10, 10
Przeciętny poziom samooceny w populacji wynosi m = 7.10

Proszę sprawdzić, czy średni poziom samooceny w badanej grupie studentów różni się od średniej w populacji na poziomie istotności 2%.

    \[H_{0}: m = 7.10\]

    \[H_{A}: m \neq 7.10\]

α=0.02

Ponieważ liczba obserwacji jest mała n = 10, a σ nie jest znane to przy wyznaczeniu wartości granicznej skorzystamy z rozkładu t-studenta.
Ponieważ test jest obustronny (badamy tylko czy m jest istotnie różne od 7.1) to wartość graniczna wynosi:

    \[t_{1 - \frac{\alpha}{2}, n-1} = t_{0.99, 9} = 3.25\]

Teraz przejdziemy do obliczenia statystyki testowej T:

    \[T = \frac{\overline{X} - m}{s} \sqrt{n-1}\]

    \[\overline{X} = \frac{1}{10} \cdot (6+7+7+8+8+9+9+9+10+10) = \frac{83}{10} =8.3\]

    \[s = \frac{1}{10-1}( (6- 8.3)^{2} + (7-8.3)^{2} + … + (10-8.3)^{2} ) = \frac{1}{9} \cdot 16.1 \approx 1.79\]

    \[T = \frac{8.3 - 7.1}{1.79} \sqrt{10-1} = \frac{1.2}{1.79} \cdot 3 = 2.01\]

    \[T < t_{1 - \frac{\alpha}{2}, n-1}\]

Więc nie mamy podstaw do odrzucenia hipotezy zerowej.

Odp: Na poziomie istotności 2% nie możemy odrzucić hipotezy, że średni poziom samooceny w badanej grupie studentów różni się od średniej w populacji.

Przedzialy ufnosci i testowanie hipotez - napis