Rozkłady empiryczne – zadania

30 osób wchodzących do warszawskiego centrum handlowego zapytano m.in. o liczbę posiadanych kart płatniczych i uzyskano informację: 3, 3 , 2 ,1, 2, 2, 3, 4, 2, 1, 0, 2, 0, 1, 1, 2, 3, 1, 1, 0, 2, 3, 4, 0, 1, 2, 0, 4, 2, 2.

a) Wyznaczyć i zinterpretować średnią arytmetyczną, medianę i dominantę liczby kart płatniczych

b) Uzasadnić, czy obliczona średnia liczba kart pozwala wnioskować o przeciętnej liczbie kart płatniczych posiadanych przez jednego Polaka

c) Ocenić zróżnicowanie liczby posiadanych kart płatniczych w badanej grupie osób

n=30

Uporządkowany zbiór:

0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4

    \[\overline{x}=\frac{4*0+7*1+10*2+5*3+3*4}{30}=1,8\]

Osoba wchodząca do warszawskiego centrum handlowego miała przeciętnie 1,8 karty płatniczej.

me=2

Połowa osób w próbie posiadała nie więcej jak 2 karty płatnicze, a druga połowa posiadała nie mniej niż 2 karty płatnicze.

do=2

Najwięcej osób posiadało 2 karty płatnicze.

b) Nie, ponieważ badane osoby nie są losową próbą wszystkich polaków.

    \[s^{2}=\frac{1}{30-1}=[(0-1,8)^{2}*4+(1-1,8)^{2}*7+(2-1,8)^{2}*10+(3-1,8)^{2}*5+(4-1,8)^{2}*3]=1,3186\]

    \[s=\sqrt{s^{2}}=\sqrt{1,318666}\approx 1,15\]

Dla trzydziestu losowo wybranych koszykarzy amerykańskiej ligi NBA w sezonie 2010/2011 zebrano informację dotyczące: liczby punktów zdobytych w meczach w tym sezonie, liczby zbiórek w meczach oraz liczby rozegranych meczów. Obliczono niektóre miary statystyczne

Miary
Liczba PunktówLiczba zbiórekLiczba meczów
Średnia arytmetyczna1190,8599,274
Mediana111758676,5
Wariancja226293,737953,378,3
Współczynnik asymetrii0,1840,156-1,93

Pod względem której z cech zawodnicy objęci badaniem są najbardziej zróżnicowani ? Czy można na tej podstawie wnioskować, że zróżnicowanie liczby zdobytych punktów wynika w znacznej mierze z różnej liczby rozegranych meczów? Scharakteryzować symetrię każdego z rozkładów.

[FMP]

Liczba punktów:

    \[V=\frac{\sqrt{226293,7}}{1190,8}=0,3995*100\% =39,95\%\]

Liczba zbiórek:

    \[V=\frac{\sqrt{37953,3}}{599,2}*100\%=32,51\%\]

Liczba meczów:

    \[V=\frac{\sqrt{78,3}}{74}*100\%=11,96\%\]

Zróżnicowanie liczby rozegranych meczów jest znacznie mniejsze niż zróżnicowanie liczby zdobytych punktów, stąd można przypuszczać, że o liczbie zdobytych punków zadecydowały też inne czynniki np. umiejętności, czas spędzony na parkiecie itp.

A1 = 0,184 – Bardzo słaba asymetria prawostronna

A2 = 0,156 – Bardzo słaba asymetria prawostronna

[/FMP]

Tabela przedstawia liczbę zgłoszeń, które napływały dziennie do organizatorów pewnego konkursu w trakcie trwania pięćdziesięciodniowej rekrutacji.

Liczba zgłoszeń234567
Liczba dni35712167

a) Podaj wartość i interpretację dystrybuanty empirycznej dla x=5

b) Podaj i zinterpretuj wartość dominanty oraz kwartyla drugiego w tym rozkładzie

[FMP]

Liczba zgłoszeńLiczba dniCzęstośćDystrybuanta F(x)
230,060,06
350,10,16
470,140,3
5120,240,54
6160,320,86
770,141

Suma
501

F(5)=0,54

Podczas 54% dni trwania rekrutacji, każdego z tych dni otrzymywano nie więcej niż 5 zgłoszeń.

b) do=6

Najczęściej otrzymywano 6 zgłoszeń dziennie

Q2 = me = 5

W czasie połowy dni rekrutacji otrzymywano nie więcej niż 5 zgłoszeń dziennie, a w czasie drugiej połowy otrzymywano nie mniej niż 5 zgłoszeń dziennie

[/FMP]

Odrabiając zadanie domowe ze statystyki, pewien student zapytał wszystkich swoich sąsiadów (60 osób) o liczbę oglądanych przez nich regularnie seriali telewizyjnych. Tylko trzy pytane osoby oświadczyły, że nie oglądają seriali. Pozostałe oglądały od jednego do pięciu seriali, a liczebności odpowiadające kolejnym wariantom cechy były następujące: 7, 9, 19, 12, 10.

a) Obliczyć i zinterpretować wartości następujących miar: średnią arytmetyczną, medianę i dominantę

b) Za pomocą miar klasycznych ocenić bezwzględny i względny poziom zróżnicowania badanej cechy

c) Czy relacje pomiędzy miarami obliczonymi w punkcie a) pozwalają stwierdzić, że rozkład liczby oglądanych seriali jest symetryczny?

[FMP]

Liczba oglądanych seriali (x)Liczba osób (n)
03
17
29
319
412
510
suma60

a)

    \[\overline{x}=\frac{0*3+1*7+2*9+3*19+4*12+5*10}{60}=3\]

Wśród badanych osób średnia liczba oglądanych seriali wynosi 3.

    \[me=\frac{x_{30}+x_{31}}{2}=\frac{3+3}{2}=3\]

Połowa badanych sąsiadów ogląda nie więcej niż 3 seriale.

do=3

Wśród sąsiadów studenta najwięcej było takich, którzy oglądają 3 seriale.

b) Bezwzględne zróżnicowanie cechy

    \[s^{2}=\frac{1}{59}[(0-3)^{2}*3+(1-3)^{2}*7+(2-3)^{2}*9+(4-3)^{2}*12+(5-3)^{2}*10]=\frac{116}{59}\]

    \[s=\sqrt{s^{2}}=1,4\]

Liczba oglądanych seriali różni się od średniej przeciętnie o 1,4.

Względne zróżnicowanie cechy:

    \[V=\frac{1,4}{3}=0,47 * 100\%=47\%\]

Zmienność w liczbie badanych przez sąsiadów seriali wynosi 47% ich średniej liczby

c) średnia =me=do=3 – nie przesądza to o symetryczności !

Współczynnik asymetrii: 

    \[A=\frac{M_{3}}{s^{3}}=\frac{-0,92}{1,4^{3}}=-0,34\]

Słaba asymetria lewostronna

[/FMP]

Grupę 20 studentów trzeciego semestru zapytano o liczbę opuszczonych przez nich wykładów z matematyki i statystyki w ubiegłym roku akademickim. Dla wykładu z matematyki dane te były następujące: 4, 3, 0, 0, 1, 2, 2, 4, 0, 1, 0, 1, 2, 3, 1, 0, 3, 0, 1, 2.

a) Zbudować szereg rozdzielczy dla cechy: liczba opuszczonych wykładów z matematyki

b) Obliczyć i zinterpretować odchylenie standardowe tej cechy

c) Czy prawdą jest, że zróżnicowanie liczby opuszczonych wykładów z matematyki jest niższe niż ze statystyki, jeśli średnia liczba opuszczonych wykładów ze statystyki wynosiła 1,4 z odchyleniem standardowym 0,5 ?

[FMP]

Liczba opuszczonych wykładów01234
Liczba studentów65432

    \[\overline{x}=\frac{1}{20}(6*0+1*5+2*4+3*3+4*2)=1,5\]

    \[s^{2}=\frac{1}{19}[(0-1,5)^{2}*6+(1-1,5)^{2}*5+(2-1,5)^{2}*4+(3-1,5)^{2}*3+(4-1,5)^{2}*2]=1,842\]

s=1,36

Liczba opuszczonych wykładów różniła się od średniej przeciętnie o 1,36.

c) 

    \[V_{matematyka}=\frac{1,36}{1,5}*100\%=90,67\%\]

    \[V_{statystyka}=\frac{0,5}{1,4}*100\%=35,71\%\]

Fałsz, jest odwrotnie

[/FMP]

Poniższy szereg rozdzielczy skumulowanych częstości prezentuje informacje o liczbie wizyt w teatrze w ubiegłym roku akademickim wśród studentów pewnej uczelni:

Liczba wizyt w teatrze12345
Skumulowana częstość względna0,20,450,660,861

a) Korzystając z miar klasycznych, ocenić średnią i zróżnicowanie liczby wizyt w teatrze

b) Wiedząc dodatkowo, że trzeci moment centralny w rozkładzie wynosił 0,38, ocenić asymetrię rozkładu

[FMP]

Liczba wizyt(co najwyżej)CzęstośćSkumulowana częstość względna
10,20,2
20,250,45
30,210,66
40,20,86
50,141

    \[\overline{x}=1*0,2+2*0,25+3*0,21+4*0,2+5*0,14=2,83\]

    \[s^{2}=(1-2,83)^{2}*0,2+(2-2,83)^{2}*0,25+(3-2,83)^{2}*0,21+(4-2,83)^{2}*0,2+(5-2,83)^{2}*0,14=1,7811\]

s=1,33

    \[V=\frac{1,33}{2,83}*100\%=47\%\]

Występuje umiarkowane zróżnicowanie liczby wizyt w teatrze

b)

    \[M_{3}=0,38\]

    \[A=\frac{M_{3}}{s^{3}}=\frac{0,38}{2,37}=0,16\]

Bardzo słaba asymetria prawostronna

[/FMP]

Według badania GUS Struktura wynagrodzeń według zawodów przeciętna płaca w Polsce w tym okresie wynosiła 3543,5zł brutto, a co najmniej połowa Polaków zarabiała nie więcej niż 2906,78zł brutto. Ponadto 10% najlepiej wynagradzanych pracowników zarabiało co najmniej 5850,66zł brutto, natomiast 10% najgorzej zarabiających uzyskiwało nie więcej niż 1478,7zł brutto. Jakie miary statystyczne kryją się za podanymi liczbami ? Co można powiedzieć o kierunku asymetrii rozkładu płac?

[FMP]

    \[\overline{x}=3543,5zl\]

    \[me=2906,78zl\]

    \[k_{0,1}=1478,7zl\]

    \[k_{0,9}=5850,66zl\]

    \[\overline{x}>me - asymetria\; prawostronna\]

[/FMP]

40 losowo wybranych studentów pewnej uczelni zapytano o liczbę wizyt w czytelni w czasie ostatniej sesji. Z uzyskanych informacji wynika, że łączna liczba wizyt wszystkich zbadanych osób wynosiła 92, suma kwadratów liczby wizyt równała się 268, natomiast suma sześcianów różnic pomiędzy liczbą wizyt a średnią dla całej grupy wynosiła -15,84. Scharakteryzować rozkład wizyt w czytelni badanej grupy studentów pod względem tendencji centralnej, zróżnicowania i asymetrii. Czy uzyskane wyniki mogą być podstawą do wnioskowania o przeciętnej liczbie wizyt w czytelni w czasie sesji wśród wszystkich studentów tej uczelni ?

[FMP]

    \[n=40\]

    \[\sum x_{i}=92\]

    \[\sum x_{i}^{2}=268\]

    \[\sum (x-\overline{x})^{3}=-15,84\]

    \[s^{2}=\frac{1}{39}(268-40*2,3^{2})=1,45\]

    \[s=1,2\]

    \[M_{3}=\frac{1}{40}*(-15,84)=-0,396\]

    \[A=\frac{-0,396}{1,74}=-0,23\]

Słaba asymetria lewostronna

Takie wyniki mogą być podstawą do wnioskowania na temat wszystkich studentów uczelni, gdyż próba była losowa.

[/FMP]

Trener koszykówki rozważa powołanie do drużyny jednego z trzech graczy A, B, C, a o wyborze ma zdecydować m.in. liczba zdobytych punktów w czasie ostatnich 10 spotkań.

Gracz ALiczba puntów79101113
Liczba spotkań12421

Gracz BLiczba punktów49101220
Liczba spotkań22321

Gracz CLiczba punktów91011
Liczba spotkań181

Powyższe wyniki wskazują, że wszyscy trzej gracze uzyskali w sumie taką samą liczbę punktów (100pkt).

a) Jakie kryterium powinien wziąć pod uwagę trener ? Jaka miara statystyczna mogłaby to potwierdzić ? Nie wykonując żadnych obliczeń, uszeregować graczy pod względem wielkości tej miary.

b) Który gracz jest najpewniejszym kandydatem do drużyny?

[FMP]

a) Kryterium które powinien wziąć pod uwagę trener to regularność wyników. Gracz C cechuje się największą regularnością i to jego powinien wybrać.

b) Każdy z zawodników zdobył przeciętnie w jednym spotkaniu tyle samo punków(10), ale zawodnik C strzela najbardziej regularnie – przy tej samej średniej odchylenie standardowe w rozkładzie liczby zdobytych przez niego punktów będzie najniższe, a w konsekwencji najniższe będzie względne zróżnicowanie cechy.

[/FMP]

Z ankiety przeprowadzonej przez wychowawcę wśród licealistów wynika, że poza dwoma uczniami, którzy posiadają odpowiednio 0 i 3 komputery w rodzinnych domach, wszyscy pozostali mają po jednym komputerze. Sprawdzić poprawność obliczeń charakterystyk rozkładu liczby posiadanych komputerów i słuszność wyciągniętych wniosków:

a) Średnia arytmetyczna i mediana są sobie równe, więc rozkład liczby posiadanych komputerów jest symetryczny.

b) Wszystkie trzy kwartyle mają taką samą wartość, więc zróżnicowanie rozkładu jest niewielkie

c) Zerowa wartość odchylenia ćwiartkowego świadczy o braku zróżnicowania badanej cechy

d) Największa liczba posiadanych komputerów to 3, więc tyle właśnie wynosi dominanta w tym rozkładzie

[FMP]

a) Na potrzeby obliczeń przyjmijmy pewną liczbę uczniów z jednym komputerem. Wyniki mogą wyglądać np tak: 0,1,1,1,1,3

średnia = 7/6

mediana = 1

Rozkład nie jest symetryczny, bo mediana nie jest równa średniej

b) W klasie w liceum jest zwykle ok 30 osób, czyli 28 osób ma jeden komputer (jest to założenie teoretyczne – nie znamy dokładnej liczby uczniów, ale to nie ma znaczenia). Wtedy Q1, Q2 i Q3 są równe 1, więc zróżnicowanie rozkładu jest niewielkie.  Prawda

c)

    \[Q=\frac{Q_{1}-Q_{3}}{2}=\frac{1-1}{2}=0\]

Nie świadczy to jednak o braku zróżnicowania cechy.

d) Fałsz. Dominanta to wynik występujący najczęściej, czyli do=1

[/FMP]

Średni wiek pracowników działu A w pewnej firmie wynosi 40lat, natomiast średni wiek wszystkich pracowników w tej firmie to 38lat. O czym świadczy różnica pomiędzy tymi średnimi ? Wiedząc, że pracownicy działu A stanowią 60% wszystkich pracowników, obliczyć, jaki jest przeciętny wiek w pozostałej grupie pracowników

[FMP]

Oznacza to, że w pozostałych działach pracują ludzie mający mniej niż 38 lat.

0,6*40+0,4*x=38
24+0,4x=38
0,4x=14
x=35 – wiek w pozostałej grupie pracowników

[/FMP]

Rozkład wieku 100 samolotów (X – w latach) użytkowanych przez linie lotnicze A kształtował się następująco:

Wiek samolotuponiżej 66-1212-1818-2424-30
Liczba samolotów515403010

a) Scharakteryzować badany rozkład pod względem tendencji centralnej i zróżnicowania za pomocą miar klasycznych

b) Porównać dyspersję powyższego rozkładu i rozkładu wieku samolotów należących do linii lotniczych B (Y – w latach), jeśli średnia Y jest równa 20, a odchylenie standardowe 5

[FMP]

    \[\frac{5*3+15*9+40*15+30*21+10*27}{100}=16,5\]

    \[s^{2}=\frac{1}{99}[(3-16,5)^{2}*5+(9-16,5)^{2}*15+(15-16,5)^{2}*40+(21-16,5)^{2}*30+(27-16,5)^{2}*10]=35,9\]

    \[s=5,99\]

    \[V_{A}=\frac{5,99}{16,5}*100\%=36,3\%\]

    \[V_{B}=\frac{5}{20}*100\%=25\%\]

[/FMP]

Uczniowie dwóch klas rywalizowali w zbiórce makulatury (w kg) na cel charytatywny

Klasa AZebrana makulatura0-33-55-77-99-12
Odsetek uczniów0,140,260,40,150,05

Klasa BZebrana makulatura0-33-55-77-99-12
Odsetek uczniów0,20,20,40,150,05

a) Nie wykonując żadnych obliczeń, wskazać, w której klasie ilość zebranej przeciętnie przez ucznia makulatury była wyższa ?

b) Czy to oznacza także, że klasa ta zebrała w sumie więcej makulatury?

[FMP]

a) W klasie A ilość przeciętnie zebranej przez ucznia makulatury była wyższa. Odsetki dla przedziałów 5-7 i 7-9 w obu klasach były takie same, ale odsetek dla przedziału 3-5 był wyższy w klasie A

b) Wszystko zależy od liczebności klas

[/FMP]

Stu pasjonatów triathlonu przygotowuje się do zawodów, trenując m.in. bieg i jazdę na rowerze. Poniższy szereg rozdzielczy przedstawia dystans(w km), jaki przebiegli oni w ostatnim tygodniu przed zawodami.

Przebiegnięty dystans50-7070-9090-110110-130130-150
Liczba osób520303510

Obliczono także sumę kwadratów odchyleń przebiegniętego dystansu od średniego dystansu (ważoną liczebnościami), która wynosiła 43 500

a) Wyznaczyć i zinterpretować wartość mediany oraz zaznaczyć jej wartość na wykresie dystrybuanty empirycznej.

b) Ile kilometrów przebiegli w sumie zawodnicy?

c) Jaka była przeciętna liczba kilometrów przebiegniętych przez jednego triathlonistę ?

d) Porównać zróżnicowanie dystansu przebiegniętego przez zawodników w ramach treningu oraz dystansu pokonanego na rowerze, jeśli w tym drugim przypadku moment zwykły rzędu pierwszego wyniósł 140 km, natomiast moment centralny rzędu drugiego 4900

[FMP]

Przebiegnięty dystansOdsetekDystrybuanta
50-700,050,05
70-900,20,25
90-1100,30,55
110-1300,350,9
130-1500,11

a) 

    \[me=90+[\frac{1}{2}-0,25]*\frac{20}{0,3}=106,67\]

b) 

    \[5*60+20*80+30*100+35*120+140*10=10500km\]

c)

    \[\frac{10500}{100}=105km\]

d) 

    \[s^{2}=(60-105)^{2}*0,05+(80-105)^{2}*0,2+(100-105)^{2}*0,3+(120-105)^{2}*0,35+(140-105)^{2}*0,1=435\]

    \[s=20,86\]

    \[V_{G}=\frac{20,86}{105}*100\%=19,9\%\]

    \[V_{r}=\frac{70}{140}*100\%=50\%\]

[/FMP]

Analiza wagi bagażu 70 losowo wybranych pasażerów samolotu LOT na trasie Warszawa-Berlin dostarczyła następujących informacji: suma wagi wszystkich bagaży (70 sztuk) wynosiła 1435kg, suma kwadratów wagi osiągnęła wartość 30133kg, suma sześcianów odchyleń wagi od średniej wynosiła -255kg
Scharakteryzować tendencję centralną, zróżnicowanie i asymetrię rozkładu wagi bagażu podróżnych.

[FMP]

    \[n=70\]

    \[\sum x_{i}=1435\]

    \[\sum x_{i}^{2}=30113\]

    \[\sum (x_{i}-\overline{x})^{3}=-255\]

    \[\overline{x}=\frac{1435}{70}=20,5\]

    \[s^{2}=\frac{1}{69}(30113-70*20,5^{2})=10,08\]

    \[s=3,17\]

    \[M_{3}=\frac{-255}{70}=-3,64\]

    \[A=\frac{-3,64}{31,95}=-0,114\]

Bardzo słaba asymetria lewostronna

[/FMP]

W klubie stoją dwa automaty do gry, które przynoszą średnio identyczną wygraną, ale charakteryzują się krańcowo różną zmiennością wypłat. Jaka miara statystyczna może opisać różnicę między wygranymi na tych dwóch automatach? Do którego automatu skierować należy osobę o dużej skłonności do ryzyka: o małym czy dużym zróżnicowaniu wypłat?

[FMP]Chodzi o odchylenie standardowe. Ryzykanta można wysłać do automatu o dużym zróżnicowaniu wypłat. Ma wtedy większe szanse na duża wygraną, ale też większą szansę na małą.
[/FMP]

Dzienny utarg sklepów (w tyś. zł) sprzedających prasę i drobne kosmetyki jest przedstawiony przez szereg rozdzielczy:

Utarg2,5-7,57,5-12,512,5-17,517,5-22,522,5-27,527,5-32,5
Liczba sklepów102040704020

Wiedząc, że utarg poszczególnych sklepów różnił się od średniego utargu wynoszącego 19,25 zł przeciętnie o 6,38 zł, ocenić i zinterpretować kierunek i siłę asymetrii przedstawionego rozkładu.

[FMP]

    \[s=6,38\]

    \[\overline{x}=19,25\]

    \[M_{3}=\frac{1}{200}[(5-19,25)^{3}*10+(10-19,25)^{3}*20+(15-19,25)^{3}*40+(20-19,25)^{3}*70+(25-19,25)^{3}*40+(30-19,25)^{3}*20]=-76,78\]

    \[A=\frac{-76,78}{259,69}=-0,296\]

Słaba asymetria lewostronna

[/FMP]

W pewnym supermarkecie we wtorek i sobotę zbadano wartość zakupów przypadających na jednego klienta. Okazało się, że połowa klientów we wtorek wydała nie więcej niż 240zł, 25% nie więcej niż 160zł, a 75% wydało co najwyżej 280zł. Z kolei w sobotę wartość zakupów połowy klientów wynosiła co najmniej 300zł, u 25% nie więcej niż 200zł, a u 75% co najwyżej 400zł. Porównać zróżnicowanie wartości zakupów dokonanych we wtorek i sobotę.

[FMP]

Dla wtorku:

    \[Q=\frac{Q_{3}-Q_{1}}{2}=\frac{280-160}{2}=60\]

    \[V_{poz}=\frac{Q}{me}=\frac{60}{240}=0,25\]

Dla soboty:

    \[Q=\frac{400-200}{2}=100\]

    \[V_{poz}=\frac{100}{300}=\frac{1}{3}\]

    \[V_{sob}>V_{wt}\]

[/FMP]

Rozkład zatrudnienia w centrach outsourcingowych przedstawia tabela:

Liczba zatrudnionych85-9595-105105-115115-125125-135
Odsetek firm0,10,250,350,20,1

a) Obliczyć przeciętną liczbę zatrudnionych oraz medianę w tym rozkładzie i skomentować wyniki. Na jaki kierunek asymetrii wskazuje relacja zachodząca między tymi miarami ?

b) Wyznaczyć drugi moment centralny i ocenić zróżnicowanie rozkładu liczby zatrudnionych

[FMP]

    \[\overline{x}=90*0,1+100*0,25+110*0,35+120*0,2+130*0,1=109,5\]

    \[me=105+[0,5-0,35]*\frac{10}{0,35}=109,29\]

Średnia jest większa od mediany, więc występuje asymetria prawostronna.

b) Drugi moment centralny = wariancja

    \[s^{2}=(90-109,5)^{2}*0,1+(100-109,5)^{2}*0,25+(110-109,5)^{2}*0,35+(120-109,5)^{2}*0,2+(130-109,5)^{2}*0,1=124,75\]

    \[s=11,17\]

    \[V=\frac{11,17}{109,29}*100\%=10,22\%\]

[/FMP]

Tabela przedstawia rozkład wieku czytelników czasopisma poświęconego podróżom:

Wiek10-2020-3030-4040-5050-6060-70
Odsetek czyelników5204020105

a) Wiedząc, że wydawca zaoferował znaczną bonifikatę w rocznym abonamencie dla 25% najmłodszych czytelników, odpowiedzieć, ile będzie miała lat najstarsza, która uzyska bonifikatę. Jak brzmi statystyczna nazwa tej wielkości?

b) Obliczyć i zinterpretować drugi kwartyl w badanym rozkładzie

c) Określić rozstęp kwartylowy wieku oraz zinterpretować jego górną granicę

d) Za pomocą miary pozycyjnej ocenić zróżnicowanie wieku czytelników

[FMP]

a)

    \[Q_{1}=30\]

b)

    \[me=30+[\frac{1}{2}-0,25]*\frac{10}{0,4}=30+\frac{1}{4}*25=36,25\]

Połowa czytelników ma co najwyżej 36,25 lat, druga połowa ma co najmniej 36,25 lat.

c)

    \[Q_{3}=40+[0,75-0,65]*\frac{10}{0,2}=45\]

    \[Q_{3}-Q_{1}=15\]

Różnica między kwartylem pierwszym a trzecim wynosi 15 lat

d)

    \[\frac{Q_{3}-Q_{1}}{2}=\frac{15}{2}=7,5\]

    \[V=\frac{7,5}{36,25}=0,207\]

[/FMP]

W czasie badań lekarskich w szkole przeprowadzono pomiar wagi i wzrostu uczniów, a wyniki zaznaczona na siatce centylowej. Okazało się, że wzrost 10-letniej Oli odpowiada 80 centylowi, natomiast waga – 30 centylowi. Zinterpretować odpowiednie parametry pozycyjne. Co można powiedzieć o rozwoju fizycznym Oli ?

[FMP]80% dzieci w wieku Oli jest od niej niższych, ale tylko 30% jest od niej lżejszych. Ola jest więc wysoka i szczupła.
[/FMP]

Czas oczekiwania klientów na obsługę w okienku bankowym (w minutach) był następujący:

Czas oczekiwania0-44-88-1212-1616-20
Częstość względna0,020,040,20,40,34

Ponadto wiadomo, że średnia i wariancja w tej próbie są odpowiednio równe 14min i 14,08. Czy prawdą jest, że:

a) Większość interesantów czeka dłużej niż 15min ?

b) Mniej niż połowa interesantów czeka krócej, niż wynosi czas średni?

c) Współczynnik zmienności czasu oczekiwania przekracza 30%?

[FMP]

a)

    \[me=12+[0,5-0,26]*\frac{4}{0,4}=14,4\]

50% klientów czeka na obsługę nie dłużej niż 14,4 minut – fałsz.

b) Mediana > średnia – prawda

c)

    \[V=\frac{s}{\overline{x}}=\frac{\sqrt{14,08}}{14}=0,268\]

Nie przekracza 30% – fałsz

[/FMP]

Dwie koronne konkurencje pewnego dziesięcioboisty to skok wzwyż i skok w dal. W ostatnim sezonie w tej pierwszej konkurencji jego przeciętny rezultat wynosił 2,19m z odchyleniem standardowym 0,03m, natomiast w tej drugiej osiągnął przeciętnie 7,60m, a jego rezultaty różniły się od tego wyniku średnio o 0,2m. Na ostatnich zawodach dziesięcioboista zdobył srebrny medal, osiągnąwszy m.in 2,22m w skoku wzwyż oraz 7,70m w skoku w dal

a) W której z tych konkurencji wypadł relatywnie lepiej na tle dotychczasowych wyników?

b) Czy uzyskane na zawodach rezultaty mieściły się w granicach typowego obszaru zmienności?

[FMP]

Skok wzwyż:

    \[\overline{x}=2,19\]

    \[s_{x}=0,03\]

Skok w dal:

    \[\overline{y}=7,6\]

    \[s_{y}=0,2\]

    \[U=\frac{x-\overline{x}}{s}\]

    \[U_{x}=\frac{2,22-2,19}{0,03}=1\]

    \[U_{y}=\frac{7,7-7,6}{0,2}=0,5\]

Lepszy wynik osiągnął w skoku wzwyż

    \[Typowy\; obszar\; zmiennosci:[\overline{x}-s;\overline{x}+s]\]

Skok wzwyż: [2,16;2,22]

Skok w dal: [7,4;7,8]

Oba wyniki mieszczą się w granicach typowego obszaru zmienności

[/FMP]

Dochody miesięczne brutto (w tyś zł) 50 pracowników pewnej firmy wynosiły łącznie 170 tyś złotych i zostały pogrupowane w cztery przedziały o jednakowej rozpiętości. Dochody pierwszej grupy, obejmującej 16% pracowników zarabiających w granicach 1,5-2,5 tyś zł, wynosiły łącznie 16 tyś zł. Dochody kolejnych dwóch grup, obejmujących 44% i 24% pracowników, wynosiły odpowiednio 66 tyś zł i 48 tyś zł. Oceń stopień asymetrii rozkładu miesięcznych dochodów badanych osób, wiedząc, że suma kwadratów odchyleń wartości poziomu dochodu od średniej wynosi 44 tyś

[FMP]

DochodyLiczba pracownikówOdsetekSuma dochodów
1,5-2,5816%16tyś
2,5-3,52244%66tyś
3,5-4,51224%48tyś
4,5-5,5816%40tyś

    \[\sum (x-\overline{x})^{2}=44 tys\]

    \[s^{2}=\frac{1}{49}*44tys\]

    \[s=0,95\]

    \[\overline{x}=2*0,16+3*0,44+4*0,24+5*0,16=3,4(tys)\]

    \[M_{3}=\frac{1}{50}[(2-3,4)^{3}*8+(3-3,4)^{3}*22+(4-3,4)^{3}*12+(5-3,4)^{3}*8]=0,24\]

    \[A=\frac{0,24}{0,95^{3}}=0,28\]

Słaba asymetria prawostronna

[/FMP]

Poniższy szereg rozdzielczy przedstawia informacje o wielkości oszczędności (w tyś zł) zgromadzonych na lokatach bankowych przez pracowników pewnej firmy:

Oszczędnoścido 44-66-88-1010 i więcej
Częstość względna0,10,150,30,250,2

a) Czy średnia arytmetyczna jest w tym przypadku dobrą miarą położenia rozkładu ? Jakie miary: klasyczne czy pozycyjne, we właściwy sposób scharakteryzują badany rozkład?

b) Za pomocą wybranych powyżej miar ocenić tendencję centralną i zróżnicowanie badanej cechy.

[FMP]

Ze względu na niedomknięte przedziały klasowe lepsze będą miary pozycyjne

b)Q1=6 (wystarczy dodać częstości 2 pierwszych przedziałów)

    \[me=6+[\frac{1}{2}-\frac{1}{4}]*\frac{2}{0,3}=7,67\]

50% wszystkich pracowników zgromadziło nie więcej niż 7,67 tyś oszczędności

    \[Q_{3}=8+[0,75-0,55]*\frac{2}{0,25}=9,6\]

    \[Q=\frac{9,6-6}{2}=1,8\]

Wartość oszczędności waha się względem wartości środkowej przeciętnie o 1,8tyś

    \[V_{poz}=\frac{Q}{me}=\frac{1,8}{7,67}=0,23\]

Zmienność wartości oszczędności wynosi 23% jej środkowej wartości

[/FMP]

Rozkłady empiryczne

Podstawą dla jakichkolwiek analiz statystycznych badanej cechy jest określenie tzw. empirycznego rozkładu cechy. Najogólniej mówiąc, określenie empirycznego rozkładu cechy polega na przyporządkowaniu uszeregowanym rosnąco wartościom, przyjmowanym przez tę cechę, odpowiednio zdefiniowanych częstości ich występowania. Omówimy poniżej różne sposoby prezentowania rozkładu empirycznego

Sprawdzono 20 stron maszynopisu znajdując na nich następujące liczby błędów:0,3,1,1,2,2,0,0,3,5,0,1,2,2,1,1,0,1,1,1. Badaną zbiorowością jest tu 20 stron maszynopisu, a badaną cechą – liczba błędów na stronie

Dane informujące, jaką wartość cechy ma każda jednostka badanej zbiorowości, noszą nazwę danych indywidualnych. Indywidualne wartości cechy oznaczamy symbolem xj, j=1,2,…,n; gdzie n jest liczebnością badanej zbiorowości (tzn. liczbą jednostek lub pomiarów).
Badana cecha , liczba błędów na jednej stronie maszynopisu, przyjmuje wartości całkowite 0, 1, 2, … Cechy tego typu, czyli cechy o wartościach ze zbioru przeliczalnego, nazywamy skokowymi.
Jak widać w powyższym przykładzie, poszczególne wartości cechy mogą występować wielokrotnie, tzn. różne jednostki zbiorowości mogą mieć taką samą wartość cechy, ponieważ jest to cecha skokowa. Możliwe jest zatem odpowiednie pogrupowanie obserwacji.
Załóżmy zatem, że cecha przyjmuje k wartości xi, i=1,…,k (1<k<n).
Dalej będziemy przyjmować, że wartości te są uporządkowane tak, aby xmin = x1 < x2 < … < xk = xmax, gdzie xmin oraz xmax oznaczają odpowiednio najmniejsza i największą wartość cechy zaobserwowaną w badanej zbiorowości.
Liczbę jednostek zbiorowości, dla których cecha przyjmuje wartość xi, oznaczać będziemy symbolem ni. Suma takich cząstkowych liczebności jest równa liczebności zbiorowości.
Jeśli poszczególnym wartościom xi cechy przyporządkowane zostaną liczebności ni, to w ten sposób określony zostanie rozkład empiryczny, a uporządkowane odpowiednio obserwacje będą miały charakter danych pogrupowanych.
Tablica prezentująca uporządkowane i pogrupowane dane nazywana jest potocznie szeregiem rozdzielczym.
Określenie rozkładu empirycznego nieco się komplikuje, gdy badana cecha może przyjmować wartości rzeczywiste, a więc wartości ze zbioru nieprzeliczalnego. Przykładem mogą tu być takie cechy, jak waga i wzrost osób, czas dojazdu do pracy itp.
Tego typu cechy określa się jako ciągłe. Przy badaniu cechy ciągłej możemy otrzymać, jeśli pomiary będą dostatecznie dokładne, liczbę różnych wyników równą ogólnej liczbie pomiarów.
Empiryczny rozkład cechy może być prezentowany za pomocą liczebności(częstości) skumulowanych. Taki sposób przedstawiania rozkładu empirycznego wiąże się z pojęciem dystrybuanty empirycznej i jest szczególnie użyteczny przy wyznaczaniu tzw. pozycyjnych charakterystyk rozkładu. Przedstawienie empirycznego rozkładu cechy za pomocą skumulowanych częstości względnych prowadzi do ważnego w statystyce pojęcia dystrybuanty empirycznej.