CZYM JEST STATYSTYKA?

Słowo statystyka ma obecnie wiele znaczeń. Pierwotnie (do połowy XIX w.) oznaczało ono uporządkowany, tj. podany w tabelarycznej formie, zbiór danych liczbowych, dotyczących stanu państwa. Z czasem pojęciem tym zaczęto określać wszelkie gromadzone dane dotyczące świata zewnętrznego. Z analiza dużych zbiorów danych związane było powstanie specyficznych metod, które wyodrębniły się w postaci dyscypliny naukowej określanej także mianem statystyki. Tak więc, statystyka, o której będzie mowa w niniejszym podręczniku, to zbiór metod służących pozyskiwaniu, prezentacji i analizie danych. Ostatecznym cele stosowania tych metod jest otrzymanie, na podstawie zbioru danych, użytecznych uogólnionych informacji na temat zjawiska, którego dane dotyczą Pozyskiwanie danych to proces zwany ogólnie badaniem statystycznym, w ramach którego dokonuje się obserwacji statystycznej (pomiarów lub zliczania) Jest to bardzo ważny etap procedury statystycznej, którym jednak w niniejszym podręczniku nie będziemy się zajmować w sposób systematyczny Prezentowanie danych to przedstawianie licznych zbiorów danych w postaci ułatwiającej ich ocenę i analizę. Można tu zastosować różne formy prezentacji tabelaryczne i graficzne Podstawowe zadanie statystyki to jednak analiza i interpretacja danych. Analiza może sprowadzać się do sumarycznego opisu zbioru danych. Wykorzystywane do tego celu środki określa się mianem metod opisu statystycznego. W wielu przypadkach zebranie wszystkich potencjalnych danych nie jest możliwe i należy wypowiadać się o badanym zjawisku na podstawie zebranych w odpowiedni sposób danych częściowych. Jest to przedmiotem tzw, statystyki matematycznej, posiłkującej się metodami rachunku prawdopodobieństwa

 

Pojęcie populacji generalnej i cechy statystycznej

Badanie statystyczne dotyczy zawsze pewnych zbiorowości, których elementami są obiekty materialne lub zjawiska. W statystyce matematycznej przyjeło się określać zbiorowość statystyczną mianem populacji generalnej lub zbiorowości generalnej. Jeśli zbiór elementów populacji generalnej jest skończony, to określamy ją jako skończoną. Przykładem populacji generalnej skończonej jest zbiorowość mieszkańców Polski, zbiorowość budynków mieszkalnych w Warszawie, zbiorowość indywidualnych gospodarstw rolnych w pewnym województwie itp.

Jeśli zbiór elementów populacji jest nieskończony, to określamy ją jako nieskończoną. Koncepcja populacji generalnej nieskończonej jest na ogół wynikiem myślenia teoretycznego i dotyczy raczej zjawisk niż obiektów materialnych. Przykładem populacji nieskończonej jest zbiorowość rzutów monetą, zbiorowość możliwych wyników pomiaru wytrzymałości materiału itp. W praktyce zdarza się też, że zbiorowość generalna, chociaż skończona, jest tak liczna, że wygodniej jest traktować ją jako nieskończoną.

Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej. Właściwości te nazywamy cechami statystycznymi. Na przykład, w przypadku populacji mieszkańców Polski można mówić o takich cechach, jak płeć, wiek, wzrost, waga, kolor oczu, wykształcenie, liczba posiadanych par butów itp. Niektóre z tych właściwości mają charakter ilościowy (np. wiek, waga) nazywamy je cechami mierzalnymi, inne mają charakter jakościowy (mp. płeć, kolor oczu) i te nazywamy cechami niemierzalnymi.

Elementy populacji generalnej różnią się na ogól między sobą wartościami rozpatrywanej cechy statystycznej; można więc mówić o rozkładzie cechy w populacji. Badanie zróżnicowania wartości cechy w populacji jest istotnym elementem każdego badania statystycznego.

Większość metod statystyki matematycznej dotyczy analizy cech mierzalnych, przy czym wykorzystuje  się w tym przypadku pojęcia rachunku prawdopodobieństwa. Wynika to z traktowania rozkładu wartości cechy w populacji generalnej jako rozkładu zmiennej losowej. Będziemy więc spotykać takie określania, jak:
“Rozkład wagi osób przypadkowo wybranych z populacji jest normalny”
“Rozkład wagi osób w populacji jest normalny”.
W konsekwencji, pewne syntetyczne charakterystyki danej cechy w populacji generalnej, takie jak np. średnia wartość cechy i odchylenie standardowe cechy, będą traktowane jako parametry rozkładu odpowiedniej zmiennej losowej.

 

Badanie pełne i częściowe

Celem badania statystycznego jest na ogół poznanie rozkładu interesującej nas cechy populacji generalnej oraz uzyskanie informacji o wartości syntetycznych charakterystyk (parametrów) tego rozkładu. Rozróżnia się dwa zasadnicze rodzaje badań statystycznych :

  1. badania pełne
  2. badania częściowe

Badanie pełne obejmuje wszystkie elementy zbiorowości generalnej, natomiast badanie częściowe – tylko pewną część elementów zbiorowości generalnej. Podzbiór elementów populacji podlegających badaniu (jednostek badania) określa się mianem próby. Zarówno badania pełne jak i częściowe mogą być obciążone różnymi błędami popełnianymi w trakcie organizacji badania, pomiaru cech oraz przetwarzania wyników. W badaniu częściowym występują ponadto błędy wynikające z tego, że struktura próby pod względem badanych cech odchyla się w sposób przypadkowy od odpowiedniej struktury w populacji generalnej.
Pomimo to w praktyce badania częściowe mają szersze zastosowanie. Wynika to stąd, że:

  • w przypadku gdy populacja jest nieskończona, nie istnieje w ogóle możliwość przeprowadzenia badania pełnego
  • badanie statystyczne może mieć charakter niszczący (np. badanie wytrzymałości elementów konstrukcyjnych)
  • w przypadku skończonej, ale bardzo licznej populacji koszt badania pełnego byłby bardzo wysoki

Statystyka matematyczna zajmuje się tylko badaniami częściowymi, i to takimi, w których dobór próby podlega pewnym obiektywnym regułom. Głównym zagadnieniem, jakie się pojawia w takich badaniach, jest możność uogólnienia uzyskanych wyników na całą populację elementów oraz oszacowanie wielkości popełnionych przy tym błędów. Zagadnienie to określa się właśnie mianem wnioskowania statystycznego. W ramach wnioskowania statystycznego można wyróżnić dwa zasadnicze typy problemów, a mianowicie: estymację (szacowanie) nieznanych wartości parametrów rozkładu cechy w populacji oraz sprawdzenie słuszności hipotez dotyczących bądź wartości parametrów rozkładu cechy w populacji, bądź postaci tego rozkładu.

 

Losowy dobór próby

Błędy wynikające z przeprowadzenia częściowego badania statystycznego mogą polegać w określonych warunkach prawom rachunku prawdopodobieństwa, przez co możliwa staje się ocena wielkości tych błędów. Podstawowym warunkiem w tym względzie jest tzw. losowy dobór próby, który polega, najogólniej mówiąc, na tym, że o fakcie znalezienia się poszczególnych elementów w populacji w próbie decyduje przypadek.

Próbę otrzymaną w wyniki doboru losowego nazywamy próbą losową.

Podana wyżej definicja losowego doboru próby obejmować może najróżniejsze sposoby (schematy) losowania. Podstawowym schematem jest tzw. losowanie proste. Losowanie określa się jako proste, jeśli wszystkie elementy populacji mają jednakowe prawdopodobieństwo dostania się do próby i prawdopodobieństwo to nie zmienia się w trakcie losowania. Taki schemat doboru próby odpowiada, znanemu z rachunku prawdopodobieństwa, schematowi losowania ze zwracaniem. Zachowanie stałego prawdopodobieństwa wyboru elementów w trakcie losowania jest warunkiem niezależności losowania; oznacza ono, że prawdopodobieństwo wylosowania określonego elementu na danym etapie nie zależy od wyników wcześniejszych etapów losowania. Niezależność losowania ma, jak zobaczymy później, duże znaczenie przy konstrukcji metod wnioskowania statystycznego.

Próbę losową uzyskaną w wyniku losowania prostego nazywamy próbą prostą. Używając w dalszej części książki pojęć próba losowa lub próba, będziemy mieć zawsze na myśli próbę losową prostą.

W praktyce pobieranie próby prostej z populacji skończonej odbywa się za pomocą tzw. tablic liczb losowych na podstawie pełnej listy ponumerowanych elementów populacji generalnej. Zagadnienia te są omawiane szczegółowo w podręcznikach poświęconych metodzie reprezentacyjnej. W odniesieniu do populacji nieskończonych pobranie próby losowej prostej odbywa się zwykle przez przeprowadzenie serii n niezależnych eksperymentów z zachowaniem identycznych, dla każdego eksperymentu, warunków.

wprowadzenie do metod statystyki